Paper:
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
1 引入
Transformer 最初针对NLP领域提出通常用来处理序列数据,如果想要应用到图像领域,最直观的方法就是将图像按像素点展开,得到长度为 $H \times W $ 的向量,但是这样做一方面会使数据量过大,另一方面单独的像素点其实不具有什么含义。因此,Vision Transformer 将图像分割为多个小的图像块来展开为序列,并将每个图像块映射为一个 embdding。