機械学習のためのデータ前処理の基本と実践法

再開催を依頼する / 関連するセミナー・出版物を探す
オンライン 開催

本セミナーでは、機械学習の成果を左右する「データ前処理」について取り上げ、その基本から、高度な前処理、自然言語・画像・音声におけるすぐに使える前処理技術、うまく対処できない時のための最新技術の調べ方のコツなどについて、PCを用いた演習を含めて実践的な内容を解説いたします。

日時

開催予定

プログラム

本セミナーでは、人工知能やデータサイエンスにおけるデータ分析において欠かせない機械学習のためのデータの前処理技術についてレクチャー、実演する。また、自らGoogle Colab環境上でサンプルコードの実行を通して実践に応用可能な前処理技術の習得を目的としている。Google Colab上では一般的な数値計算および機械学習ライブラリに加え、GPUにより高速化できる深層学習フレームワークがあらかじめ導入されている。Google Drive上に学習データやモデルを保存でき、無料ではじめることができるため、機械学習用に計算機を準備するのが難しい初学者にはうってつけのツールである。  前半では数値データの前処理について扱うが、そのほとんどは、Kaggleで公開されているデータセットを使用する。これらのデータは、その多くが教科書向けのきれいな (機械学習で扱いやすい) データではないため、多くの場合、前処理技術を駆使しなければ思うような結果を導き出すことができない。このセミナーを通して機械学習に適した前処理技術を身につけることができれば、実際に収集した扱いにくいデータに対しても適切に対応できるようになるはずである。実用の際には、セミナーで紹介した前処理技法だけではうまく対処できないデータにも出くわすであろう。その際は、複数の前処理技術を組み合わせたり、最新の前処理技法を導入する必要も出てくるが、そんなときに役立つ各種技術の調査方法のコツなども一部紹介する。さらに、自然言語処理、画像処理、音声処理における基本的な前処理についても、すぐに使える技術を中心に解説する。

  1. はじめに「AI・機械学習における前処理」
  2. 準備
    1. Google Colabによる実行環境
    2. NumPy, pandas
    3. scikit-learn
    4. matplotlib
    5. TensorFlow, Keras
  3. 基本的な前処理
    1. 標準化と正規化
    2. ビニング
    3. 外れ値・欠損値の扱い
  4. 特徴選択・次元削減と可視化
    1. フィルタ法、ラッパ法、正則化
    2. 線形次元削減、非線形次元削減
  5. 高度な前処理
    1. カテゴリカルデータから数値データへの変換
    2. 不均衡データの扱い
    3. 時系列データの扱い
  6. テキストデータの前処理
    1. 分かち書きと形態素解析
    2. ニューラルネットワークによる文書分類
  7. 画像データ、音声・音楽データにおける前処理
    1. 畳み込みニューラルネットワーク
    2. データ拡張
    3. ファインチューニング
    4. 音声・音楽データの前処理

受講料

複数名受講割引

アカデミー割引

教員、学生および医療従事者はアカデミー割引価格にて受講いただけます。

ライブ配信セミナーについて