Soroush Mehraban
- 22:17
- 2 ай бұрын
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation
- 14:10
- 3 ай бұрын
FastV: An Image is Worth 1/2 Tokens After Layer 2
- 32:22
- 5 ай бұрын
PoseGPT (ChatPose): Chatting about 3D Human Pose
- 9:13
- 6 ай бұрын
MotionAGFormer (WACV2024): Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network
- 35:08
- 7 ай бұрын
HD-GCN (ICCV2023): Skeleton-Based Action Recognition
- 8:25
- 8 ай бұрын
ST-GCN: Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
- 13:08
- 8 ай бұрын
Graph Convolutional Networks (GCN): From CNN point of view
- 21:12
- 9 ай бұрын
DINO: Self-Supervised Vision Transformers
- 31:03
- Жыл бұрын
MoCo (+ v2): Unsupervised learning in computer vision
- 22:30
- Жыл бұрын
ViTPose: 2D Human Pose Estimation
- 28:40
- Жыл бұрын
TrackFormer: Multi-Object Tracking with Transformers
- 10:59
- Жыл бұрын
MetaFormer is Actually What You Need for Vision
- 21:00
- Жыл бұрын
ConvNet beats Vision Transformers (ConvNeXt) Paper explained
- 21:32
- Жыл бұрын
Swin Transformer V2 - Paper explained
- 15:20
- Жыл бұрын
Masked Autoencoders (MAE) Paper Explained
- 23:13
- Жыл бұрын
Relative Position Bias (+ PyTorch Implementation)
- 19:59
- Жыл бұрын
Swin Transformer - Paper Explained
- 6:41
- Жыл бұрын
Vision Transformer (ViT) Paper Explained
- 9:11
- Жыл бұрын
Squeeze-and-Excitation Networks (SENet) paper explained
- 12:18
- Жыл бұрын
Faster R-CNN: Faster than Fast R-CNN!
- 8:11
- Жыл бұрын
Receptive Fields: Why 3x3 conv layer is the best?
- 38:37
- Жыл бұрын
Пікірлер