ViT

Vision Transformer

本blog为个人学习ViT时的论文及代码记录,包含论文精读与代码重建部分

本项目是个人作为Transformer进阶练习所建立的内容,内含网上各种资料借鉴以及自己的独立感悟和理解,可能会有疏漏和错误,如有指正,十分感谢!

引言

ViT(Vision Transformer)是google研究团队于2020年提出的一种新型图像识别模型,首次将Transformer架构成功应用于计算机视觉任务中

Transformer最初主要应用于NLP领域(如Bert和GPT),而ViT展示了其在视觉任务中的潜力

论文

Vision Transformer.pdf

论文原题:An Image is worth 16x16 words: Transformers for Image Recognition at scale