ViT

Vision Transformer

本blog为个人学习ViT时的论文及代码记录，包含论文精读与代码重建部分

本项目是个人作为Transformer进阶练习所建立的内容，内含网上各种资料借鉴以及自己的独立感悟和理解，可能会有疏漏和错误，如有指正，十分感谢！

引言

ViT（Vision Transformer）是google研究团队于2020年提出的一种新型图像识别模型，首次将Transformer架构成功应用于计算机视觉任务中

Transformer最初主要应用于NLP领域（如Bert和GPT），而ViT展示了其在视觉任务中的潜力

Vision Transformer.pdf

论文原题：An Image is worth 16x16 words: Transformers for Image Recognition at scale