本セミナーでは、大規模言語モデルについて、画像と言語のマルチモーダル化を中心として、最新の技術動向を解説します。
はじめに、基礎となる自己教師あり学習を解説します。つぎに大規模言語モデルの応用として、推論への適用、社内情報の活用方法、画像と言語のマルチモーダル基盤モデルを解説します。最新の技術動向として 2023年の画像分野の国際会議の論文を中心に関連する研究を紹介します。
- 自己教師あり学習の手法
- 対比学習による潜在空間への変換
- マスクを用いた学習
- 自己回帰型モデル (次の要素を予測する)
- 大規模言語モデル
- 機械翻訳モデルとしてのTransformer
- BERT (Bi-directional Encoder Representations from Transformers)
- GPT (Generative Pre-trained Transformer)
- プロンプトによる指示の有効性
- 対話型AI
- 強化学習の役割 (InstructGPT)
- 対話型 AI (ChatGPT) の登場とその後の発展
- 思考の連鎖 (Chain of Thought) と多段推論への展開
- 社内情報の活用方法と留意点
- マルチモーダル基盤モデル
- 画像分野における言語処理の重要性
- 画像と言語のマルチモーダル基盤モデル
- 画像認識・検出・領域分割における言語の役割
- マルチモーダルエージェントと言語による指示
- 異常検知への応用 (外観検査・動画像)
- 産業分野への適用の可能性
- 最新の技術動向と今後の方向性
- CVPR 2023 (Computer Vision and Pattern Recognition)
- ICCV 2023 (International Conference on Computer Vision)
- マルチモーダル基盤モデルに関連する研究の紹介
- 企業における活用には格差が存在する
- 大規模言語モデルの発展の方向性について