Vision Transformerの仕組みとBEV Perception

自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。　本セミナーでは、Vision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、BEV PerceptionによるEnd-to-end自動運転技術の最前線についても紹介する。

Transformerの仕組み
1. Transformer
2. 大規模言語モデル
Vision Transformerの仕組み
1. 特徴表現獲得の変遷
2. VIsion Transformer (ViT)
3. ViTによる画像認識
4. ViTによる特徴表現獲得
5. ViTベースの物体検出、セマンティックセグメンテーション
6. ViTの自己教師あり学習
7. ViTの派生手法
  - Swin Transformer
  - ConvNeXtなど
Vision and Languge Model (VLM) による知識獲得向
1. VLMとは
2. CLIPとオープンボキャブラリ認識
3. LLaVA
4. Vision-Language-Actionモデル (VLA)
TransformerによるBEV Perception
1. Bird’s-Eye-View (BEV) 空間
2. BEVベースの3D物体検出
  - BEVFormer
3. BEVベースのE2E自動運転
  - UniAD
  - Para-Drive
  - EMMA
TransformerによるBEV Perception
1. Bird’s-Eye-View (BEV) 空間
2. BEVベースの3D物体検出
  - BEVFormer
  - BeVerse
3. BEVベースの自動運転:UniAD

ライブ配信セミナーについて

本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
お申し込み前に、 Zoomのシステム要件とテストミーティングへの参加手順をご確認いただき、テストミーティングにて動作確認をお願いいたします。
開催日前に、接続先URL、ミーティングID、パスワードを別途ご連絡いたします。
セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

Vision Transformerの仕組みとBEV Perception

日時

プログラム

受講料

ライブ配信セミナーについて