本セミナーでは、視覚基盤モデル (Vision Foundation Model) を技術者向けに解説します。この技術は視覚言語モデル (VLM) 、視覚言語行動モデル (VLA) へと発展し、実世界との接点としてPhysical AI (Embodied AI) への適用が注目されています。そこで視覚基盤モデルの技術を解説し、工学分野・製造業に与える影響を考察します。
- 視覚基盤モデルの重要性
- 外界を認識し、行動する上で「見る」ことの重要性
- 深層学習の深化:物体検出、領域分割など視覚タスクの広がり
- タスクごとのモデルから基盤モデルへの進化
- 自動運転、ロボット、製造業における応用
- 自己教師あり学習
- 自己教師あり学習 (Self-supervised Learning) の意義
- 自己教師あり学習手法 (対比学習: Contrastive Learning)
- マスク画像モデリング (Masked Auto-encoder)
- 自然言語処理分野での成功 (BERT、GPT) の波及
- Transformerのインパクトとマルチモーダル学習
- 画像分野におけるTransformer のインパクト
- マルチモーダル学習:画像とテキストの融合 (CLIP)
- 視覚言語モデル (Vision Language Model) における言語の役割
- 外観検査への視覚言語モデルの応用:汎用外観検査
- 集約型視覚基盤モデル
- AM-RADIO [CVPR2024]
- RADIO-v2 [CVPR2025]
- 三次元 (3D) 世界への拡張:3D表現学習
- 二次元 (2D) 視覚からの発展:なぜ3D理解が重要なのか?
- 三次元表現手法 (その1) :Neural Radiance Fields (NeRFs)
- 三次元表現手法 (その2) :3D Gaussian Splatting
- スチューデントt分布の適用:3D Student Splatting and Scooping [CVPR2025]
- VGGT:Visual Geometry Grounded Transformer [CVPR2025]
- CADとの連携:CADTalk [CVPR2024]、CADDreamer[CVPR2025]
- 行動理解とロボティクスへの視覚基盤モデルの応用
- 動画像からの人間動作理解:視覚の役割深化
- マークと軌跡の利用
- Set-of-Mark:SoM
- Trace-of-Mark:ToM
- Magma: A Foundation Model for Multimodal AI Agents [CVPR 2025]
- ロボットシミュレーションにおけるVLA (Vision-Language-Action) モデル
- 言語による汎化性+推論による行動計画・実行の進化
- UI ナビゲーションから点検作業支援/安全管理への発展の可能性