1 引入

Transformer 最初针对NLP领域提出通常用来处理序列数据，如果想要应用到图像领域，最直观的方法就是将图像按像素点展开，得到长度为 $H \times W $ 的向量，但是这样做一方面会使数据量过大，另一方面单独的像素点其实不具有什么含义。因此，Vision Transformer 将图像分割为多个小的图像块来展开为序列，并将每个图像块映射为一个 embdding。