生物学分野では研究が実験装置やキットへの依存の度合いが物理や化学と比べて大きい。新しい商品が登場することで新しく研究できることが増えていて、研究者はフォローするのが大変である。特に、最近になって登場してきている新しい実験装置は数百ギガバイトのデータを出力し、これを扱うにはプログラミングスキルが必要であるために研究者がフォローする際のハードルが高い。このギャップを解決する指針が立てられるようになることを目指す。 いま言われるところのすごいAIというのは、手書き文字認識など画像分類の分野のブレークスルーが中心である。また、囲碁であれば勝敗が定義されたものであること、画像分類であれば猫が定義されたものであることがポイントで、すでに定義済みのものを扱うから精度の議論ができる。ところでバイオの分野で次世代シークエンサーなど数億円規模の新しい実験装置を導入する場面というのは、事前に定義された、たとえば猫とわかっているものを測る場面ではない。そこでは「なんであるか」を記述する課題が「どのように」の課題よりも中心的で競争力の源泉となっている。セミナーの前半では教師あり・教師なし学習等のAI的手法を取り入れたデータ加工手法を駆使した「見える化」によってデータとコミュニケーションする方法を紹介し、それらを例にプロジェクトを成功に導くルールを分析する。 セミナーの後半では、ディープラーニングの王様であるCNN (画像分類に特に効果的なConvolution層をもつNeural Networkを使った方法) をバイオの問題にうまく生かした事例の研究から、第三次AIブームの恩恵を享受する方法を議論する。そもそもCNNの特徴は、一般的なNeural Networkの全結合層が無視してしまう形状を維持するConvolution層の導入にある。Convolution層は形状を維持するため、画像の形状に含まれた空間的情報を利用できる点で特に優れている。CNNをうまく利かすにはCNNのための画像データが必要であり、例えば顕微鏡下の細胞画像は向いていない。細胞は透明なオブジェクトなので、通常の光学顕微鏡を用いるとピントのあっている部分の情報に加えて、ピントのあっていないところを通過した光の情報も混ざり込んでしまう。車載カメラのように不透明な物体の画像か、レントゲンのように全てを透過させた画像かを用いる方が良い。空間中に切片を切るような画像を用いた事例の紹介とともに、フルスタックエンジニアリングの観点からCNNの仕組みと成功の関係を分析する。