小規模データセットのための実践的ディープラーニング

ディープラーニングはデータから帰納的に識別モデルを構築するため、十分な性能を得るためには大量のデータを集めなければならない。しかし実用上、目的に合わせて大量のデータを収集することは非常に困難である。　そのため

識別対象に対する知識を使うことでディープラーニングに制約を課す (データ拡張、深層生成モデル)
別のデータで得られた知見を応用する (ドメイン適応)

などの工夫を行うことで、比較的少ないデータ量でも悪くない性能を達成することができる。　データ拡張とはデータに手を加えて量を増やすことである。例えば、自動車の画像は拡大縮小・左右反転させても自動車として識別されてほしい。そのような操作を加えることで、元の画像の大きさに依存せずに、普遍的な特徴を学習する。またドロップアウト (dropout) のように、データにノイズを加える手法もある。それだけでなく、一部を切り取ったりくっつけたりすることもある。なぜこのような手法が有効なのか、理論的な背景も含めて説明する。　また深層生成モデル (変分自己符号化器VAEや敵対的生成ネットワークGAN) はリアルな擬似データを作ることができるが、この擬似データを追加の学習データにすることもできる。また深層生成モデルそのものを分類に使うことで、小規模データの分類も可能である。ドメイン適応は目的以外に大規模データセットが存在するときに有効な方策である。ImageNetのような大規模データで学習した特徴量を流用したり、ラベルを付与したデータの情報から、ラベルを与えていないデータを学習を手助けしたりできる。これらの手法について、いくつかの実例とともに紹介していく。

ディープラーニング入門
1. ディープラーニングとは
2. ディープラーニングの現状
3. データ量と性能の関係
データの増やし方
1. 一般的なデータ拡張とその意味
2. 一般的でないデータ拡張と用途
3. 生成モデルを用いたデータ拡張
4. 生成モデルを用いた設計
ドメイン適応と転移学習
1. 転移学習
2. ドメイン適応
3. ドメイン適応を用いたデータ拡張
その他の話題

小規模データセットのための実践的ディープラーニング

日時

プログラム

会場

受講料