深層学習の代表的な手法である畳み込みニューラルネットワークは画像認識分野で様々なタスクへの応用が進んでいる。また、近年は自然言語分野で提案されたTransformerを応用したVision Transformerなど新たな手法も提案されている。
本講義では、畳み込みニューラルネットワークとVision Transformerについて、仕組みと画像認識分野への応用事例について説明する。また、畳み込みニューラルネットワークの実装方法についても紹介し、実践的に活用できる知識を身につける。
- ディープラーニングの現在
- 畳み込みニューラルネットワーク (CNN:Convolutional Neural Networks)
- CNNの構成要素
- 畳み込み層,プーリング層,全結合層
- CNNの学習方法
- 誤差逆伝播法,最適化法
- 汎化性能向上のテクニック
- Dropout,データ拡張 (Mixup, Cutout等)
- 代表的なネットワーク構造
- VGG
- GoogLeNet (Inception module)
- ResNet
- MobileNet
- 画像認識分野への応用
- 物体検出
- セグメンテーション
- 姿勢推定
- 異常検知
- 判断根拠の可視化
- 文章生成
- Vision Transformer
- アテンション構造
- Transformer
- Vision Transformer
- DINO (自己教師あり学習)
- ディープラーニングの実装
- 畳み込みニューラルネットワークの実装
- Transformerの実装
- ディープラーニングのライブラリ