(2020年3月2日 10:00〜12:00)
IT技術の進歩の中で、近年ではIoTやビッグデータ、AIなどが注目され、様々な実践が行われている。自然言語処理、その一分野であるテキストマイニングもそのひとつである。現在主流のテキストマイニングでは形態素解析とその結果に基づく計量・共起分析が中心的な手法である。しかし、機械学習技術の進歩の中でSkip-gramなどの手法が開発され、それらを活用した分散表現テキストマイニングが実用化され始めている。これの特徴は、これまでは難しかった意味に基づく分析を可能にする点にある。 この講座では、講師の研究事例を用いながら、テキストマイニングにおける計量的手法とその弱点を概観し、これらを克服する可能性のある分散表現テキストマイニングについて見ていく。機械学習技術を用いたテキストマイニングは、未完成の物であり、現在も新しい技術が次々に発表されている。この講座は、参加者が新しい技術を取り入れる際の足掛かりとなるものを目指している。
(2020年3月2日 12:45〜14:45)
産業と関連性が高い企業や研究者にとって特許や論文などの技術文書の分析をすることは、特定分野の動向を知るうえで重要である。また、このような動向情報は、その分野への新規参入やその技術への投資の選定などを判断するうえで有用な材料となる。しかしながら、限られた時間の中で特定分野に関する情報を網羅的に収集し、分析することは容易ではない。こうした状況を鑑み、機械学習を用いて技術文書から特定分野の技術動向を効率的に把握するための研究や取り組みが数多く行われている。 本発表では、技術文書を対象とした技術動向の分析・可視化を行うためのシステムやその言語処理技術、研究プロジェクトなどについて述べる。
(2020年3月2日 15:00〜17:00)
Python (Anaconda/Google Colaboratory) 上の機械学習フレームワーク (Scikit-learn/Tensorflow-Keras) を使用し、自ら特許文書を解析するコツを紹介します。 まず特許文書を下処理して文法に従って切り出し、テキストマイニングの手法でキーワードを抽出して可視化する方法を紹介します。次に、機械学習で取り扱い可能なように特許文書を数値化する「文書ベクトル化」方法を解説します。さらに、得られた文書ベクトルを用いて教師なし学習による可視化と文書分類する方法、教師あり学習によるニューラルネットワークの手法で文書分類する方法を紹介します。