大規模言語モデルとマルチモーダル基盤モデルの技術動向

本セミナーでは、大規模言語モデルについて、画像と言語のマルチモーダル化を中心として、最新の技術動向を解説します。　はじめに、基礎となる自己教師あり学習を解説します。つぎに大規模言語モデルの応用として、推論への適用とマルチモーダル化の技術を解説します。最新の動向として 2023年に参加した国際会議から、画像分野 (CVPR2023, ICCV2023) とデータサイエンス分野 (KDD2023) の関連する研究を紹介します。

自己教師あり学習の手法
1. 対比学習による潜在空間への変換
2. マスクを用いた学習
3. 自己回帰型モデル (次の要素を予測する)
大規模言語モデル
1. 機械翻訳モデルとしてのTransformer
2. BERT (Bi-directional Encoder Representations from Transformers)
3. GPT (Generative Pre-trained Transformer)
4. プロンプトによる指示の有効性 (GPT-3:Few shot learner)
対話型AI
1. 強化学習の役割 (InstructGPT)
2. 対話型 AI (ChatGPT) の登場とその後の発展
3. 思考の連鎖 (Chain of Thought) と多段推論への展開
4. 企業における活用には格差が存在する
マルチモーダル基盤モデル
1. 画像分野における言語処理の重要性
2. 画像と言語のマルチモーダル基盤モデル
3. 画像認識・検出・領域分割における言語の役割
4. マルチモーダルエージェントと言語による指示
5. 産業分野への適用の可能性について
データサイエンス分野における技術動向
1. KDD 2023 (Knowledge Discovery and Data Mining)
2. 大規模言語モデルは様々な分野に影響を与えている
3. 産業分野における応用事例
画像分野における技術動向
1. CVPR 2023 (Computer Vision and Pattern Recognition)
2. ICCV 2023 (International Conference on Computer Vision)
3. マルチモーダル基盤モデルに関連する研究の解説
4. 画像分野における大規模言語モデルの展望

ライブ配信セミナーについて

本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
お申し込み前に、視聴環境とテストミーティングへの参加手順をご確認いただき、テストミーティングにて動作確認をお願いいたします。
開催日前に、接続先URL、ミーティングID、パスワードを別途ご連絡いたします。
セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

大規模言語モデルとマルチモーダル基盤モデルの技術動向

日時

プログラム

受講料

ライブ配信セミナーについて