自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
本セミナーでは、Vision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、BEV PerceptionによるEnd-to-end自動運転技術の最前線についても紹介する。
- Transformerの仕組み
- Transformer
- 大規模言語モデル
- Vision Transformerの仕組み
- 特徴表現獲得の変遷
- VIsion Transformer (ViT)
- ViTによる画像認識
- ViTによる特徴表現獲得
- ViTベースの物体検出、セマンティックセグメンテーション
- ViTの自己教師あり学習
- ViTの派生手法
- Swin Transformer
- ConvNeXtなど
- Vision and Languge Model (VLM) による知識獲得向
- VLMとは
- CLIPとオープンボキャブラリ認識
- LLaVA
- Vision-Language-Actionモデル (VLA)
- TransformerによるBEV Perception
- Bird’s-Eye-View (BEV) 空間
- BEVベースの3D物体検出
- BEVベースのE2E自動運転
- TransformerによるBEV Perception
- Bird’s-Eye-View (BEV) 空間
- BEVベースの3D物体検出
- BEVベースの自動運転:UniAD