本セミナーでは、大規模言語モデルについて、画像と言語のマルチモーダル化を中心として、最新の技術動向を解説します。
はじめに、基礎となる自己教師あり学習を解説します。つぎに大規模言語モデルの応用として、推論への適用とマルチモーダル化の技術を解説します。最新の動向として 2023年に参加した国際会議から、画像分野 (CVPR2023, ICCV2023) とデータサイエンス分野 (KDD2023) の関連する研究を紹介します。
- 自己教師あり学習の手法
- 対比学習による潜在空間への変換
- マスクを用いた学習
- 自己回帰型モデル (次の要素を予測する)
- 大規模言語モデル
- 機械翻訳モデルとしてのTransformer
- BERT (Bi-directional Encoder Representations from Transformers)
- GPT (Generative Pre-trained Transformer)
- プロンプトによる指示の有効性 (GPT-3:Few shot learner)
- 対話型AI
- 強化学習の役割 (InstructGPT)
- 対話型 AI (ChatGPT) の登場とその後の発展
- 思考の連鎖 (Chain of Thought) と多段推論への展開
- 企業における活用には格差が存在する
- マルチモーダル基盤モデル
- 画像分野における言語処理の重要性
- 画像と言語のマルチモーダル基盤モデル
- 画像認識・検出・領域分割における言語の役割
- マルチモーダルエージェントと言語による指示
- 産業分野への適用の可能性について
- データサイエンス分野における技術動向
- KDD 2023 (Knowledge Discovery and Data Mining)
- 大規模言語モデルは様々な分野に影響を与えている
- 産業分野における応用事例
- 画像分野における技術動向
- CVPR 2023 (Computer Vision and Pattern Recognition)
- ICCV 2023 (International Conference on Computer Vision)
- マルチモーダル基盤モデルに関連する研究の解説
- 画像分野における大規模言語モデルの展望