Vision Transformerの仕組みとBEV Perception

セミナーに申し込む
オンライン 開催

日時

開催予定

プログラム

自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。  本セミナーではVision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、自動運転技術に欠かせないTransformerベースのBEV Perceptionの最前線についても紹介する。

  1. 再帰型ニューラルネットワークの仕組み
    1. 再帰型ニューラルネットワーク (RNN)
    2. LSTM
    3. Seq2seq、Attention Seq2seq
  2. Transformerの仕組み
    1. Transformer
    2. 大規模言語モデル
  3. Vision Transformerの仕組み
    1. 特徴表現獲得の変遷
    2. VIsion Transformer (ViT)
    3. ViTによる画像認識
    4. ViTによる特徴表現獲得
    5. ViTベースの物体検出、セマンティックセグメンテーション
    6. ViTの自己教師あり学習
  4. ViTの最新動向
    1. ViTの派生手法
      • Swin Transformer
      • ConvNeXtなど
    2. ViTの派生手法の傾向
  5. TransformerによるBEV Perception
    1. Bird’s-Eye-View (BEV) 空間
    2. BEVベースの3D物体検出
      • BEVFormer
      • BeVerse
    3. BEVベースの自動運転:UniAD

受講料

ライブ配信セミナーについて