前処理とは何らかの解析処理を行う前に行う処理のことです。前処理の効果は大きく、以降に続く解析処理の成否を決めているのが、実は、前処理とも言われています。
本セミナーでは、解析処理を時系列データ分析、自然言語に対する機械学習及び画像に対する機械学習の3つに限定します。その上で、各処理に対して、通常、前処理として位置づけられている処理を解説します。
また利用するプログラミング言語は Python です。個々の前処理を行うために有用なパッケージや関数などを紹介します。
- 時系列データ分析の前処理
- 欠損値とその補完
- 変数変換
- スライド窓
- 移動平均とスムージング
- 外れ値検出
- 自然言語の機械学習処理のための前処理
- 構造化文書から plain テキストへ
- クリーニング処理、単語の正規化、Stemming
- 単語分割
- 単語の埋め込み表現
- BERT の利用
- Bag of words と TF – IDF
- 文や文書の埋め込み表現
- 画像の機械学習処理のための前処理
- フォーマット変換
- ノイズ除去
- フィルター処理
- 画像サイズの変更
- Data Augmentation