深層学習の代表的な手法である畳み込みニューラルネットワークは画像認識分野で様々なタスクへの応用が進んでいる。また、近年は自然言語分野で提案されたTransformerを応用したVision Transformerなど新たな手法も提案されている。
本講義では、畳み込みニューラルネットワークとVision Transformerについて、仕組みと画像認識分野への応用事例について説明する。また、畳み込みニューラルネットワークの実装方法についても紹介し、実践的に活用できる知識を身につける。
- ディープラーニングの現在
- 畳み込みニューラルネットワーク (CNN:Convolutional Neural Networks)
- CNNの構成要素
- CNN の学習方法
- 汎化性能向上のテクニック
- 代表的なネットワーク構造、等
- 画像認識分野への応用
- 物体検出
- セグメンテーション
- 姿勢推定
- 判断根拠の可視化
- 文章生成
- Transformerの画像認識応用
- アテンション構造
- Transformer
- Vision Transformer
- ViTの発展 (SwinTransformerなど)
- Transformerベース物体検出 (DETR)
- Transformerベースセマンティックセグメンテーション (SegFormer)
- DINO (自己教師あり学習)
- ディープラーニングの実装
- 畳み込みニューラルネットワークの実装
- Transformerの実装