深度学习实战笔记-3-手写ViT
ViT
Vision Transformer
本blog为个人学习ViT时的论文及代码记录,包含论文精读与代码重建部分
本项目是个人作为Transformer进阶练习所建立的内容,内含网上各种资料借鉴以及自己的独立感悟和理解,可能会有疏漏和错误,如有指正,十分感谢!
引言
ViT(Vision Transformer)是google研究团队于2020年提出的一种新型图像识别模型,首次将Transformer架构成功应用于计算机视觉任务中
Transformer最初主要应用于NLP领域(如Bert和GPT),而ViT展示了其在视觉任务中的潜力
论文
论文原题:An Image is worth 16x16 words: Transformers for Image Recognition at scale
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦翔!