ディープラーニングはデータから帰納的に識別モデルを構築するため、十分な性能を得るためには大量のデータを集めなければならない。しかし実用上、目的に合わせて大量のデータを収集することは非常に困難である。 そのため
などの工夫を行うことで、比較的少ないデータ量でも悪くない性能を達成することができる。 データ拡張とはデータに手を加えて量を増やすことである。例えば、自動車の画像は拡大縮小・左右反転させても自動車として識別されてほしい。そのような操作を加えることで、元の画像の大きさに依存せずに、普遍的な特徴を学習する。またドロップアウト (dropout) のように、データにノイズを加える手法もある。それだけでなく、一部を切り取ったりくっつけたりすることもある。なぜこのような手法が有効なのか、理論的な背景も含めて説明する。 また深層生成モデル (変分自己符号化器VAEや敵対的生成ネットワークGAN) はリアルな擬似データを作ることができるが、この擬似データを追加の学習データにすることもできる。また深層生成モデルそのものを分類に使うことで、小規模データの分類も可能である。 ドメイン適応は目的以外に大規模データセットが存在するときに有効な方策である。 ImageNetのような大規模データで学習した特徴量を流用したり、ラベルを付与したデータの情報から、ラベルを与えていないデータを学習を手助けしたりできる。 これらの手法について、いくつかの実例とともに紹介していく。