独自開発中の電子実験ノートの紹介
本記事では、私が独自に開発している電子実験ノートのコンセプトと開発動機について紹介します。
(電子実験ノートについては、興味深い記事[1,2,3,4]があったのでページ下部にリンクを貼っています。)
目次
1. 開発動機
動機1:実験科学者としての悩み
現在私は、材料工学とデータ科学を組み合わせたMaterials Informatics(以下、MI)の研究をしていますが、大学院時代は材料工学分野の実験屋でした。実験屋として苦労した自分の経験を解決したいという思いが動機の1つになっています。
・実験プロセスの人による違い
当時、私は大学院から材料工学を始めたこともあり、この分野での実験がどういうものなのか全く想像もできませんでした。そこで、指導してくれる先輩のやり方を真似ることで、実験を理解していくことにしました。慣れてきた頃、別の先輩に実験のやり方が違うよ!と注意を受けました。実験の流れや使う装置は正しかったものの、測定する試料の前処理の仕方(試料形状等)が違っていたようです。
また、私の研究テーマの1つは、すでに卒業した先輩が研究していた試料の性能を向上させるという内容だったので、まずは先輩が作った試料をトレースしました。しかし、先輩が報告している性能をなかなか再現できず、非常に時間がかかってしまいました。その原因は、論文やノートに書くほどではないと判断された前処理でした。
この経験から、研究室内で「大まかな正しい実験の流れ」が共有・伝承されていたとしても、前処理をはじめとした詳細なノウハウが人に依存してうまく共有・伝承されてない可能性があると思うようになりました。特に学生が多い研究室であれば、先生が実験の全てを把握することや手取り足取り教えることは難しく、博士の学生をはじめとした先輩が指導することも多いと思います。そうした環境の中では、実験プロセスが伝言ゲームのように言葉だけで伝えられ、私が経験したような齟齬につながっているのだと思います。特に私の場合は、最初に指導してくれた先輩が留学生だったこともあり、言語や文化の違いによってさらに伝承が難しくなっていたのかもしれません。
・紙の実験ノート
実験科学系の研究分野であれば、紙の実験ノートを書く習慣があり、私も学生時代は常に実験の情報を紙の実験ノートに書くようにしていました。しかし、紙の実験ノートは、正確に記述していくことが大変な上に、検索性が低いのでどこに何を書いたかを探すのも大変でした。
動機2:データ科学者としての悩み
現在のMIは、第一原理計算という理論計算によって大量に吐き出された計算データを用いた手法が主流です。ところが、あくまでも理想的な条件下で計算されたデータであるため、予測結果が実験結果と異なることがしばしば発生します。そこで、私と共同研究者は、すでに公開されている論文の中から実験データを大規模に抽出・管理できるWebシステムStarrydata[5]を開発し、世界に先駆けて実験値MIを研究しています[6,7]。
その一方で、世界中で行われてきた実験の数を考えると、論文に報告されているデータをいくら集めても、それは氷山の一角にすぎないことも事実です。つまり、失敗データも含めたさらに大規模な実験データは世に出ることもなく、各研究機関のPCや実験ノートして本棚に眠っています。また最近では、失敗データも含めたMIを実現することによって、予測精度が向上することも報告[8]され始めているように、失敗データをいかに体系的に集めるのかが重要な課題であり、私自身もそれを解決したいという思いがもう一つの動機となっています。
2. 新しい電子実験ノートのコンセプト
上記の開発動機に基づき、私は以下の2点を重視した電子実験ノートを開発しています。
① 実験プロセスに焦点を当てたノート
1で述べた実験プロセスの人による違いを限りなくゼロに近づけるため、実験プロセスの骨組み(テンプレート)を視覚的に認識しやすい形で設計・共有できる仕組みを設けました。視覚的に認識しやすくすることにより、論理構造さえ理解できれば言語や文化の違いの影響も小さくできると考えています。
上図のような実験プロセスの骨組みは、大学の研究室であれば基本的に先生や博士の学生が構築します。一方、実際に実験をする学生は、下図のようにその骨組みに従って肉付けするように、各ブロックに対して数値データやノウハウ、考察情報や画像などを紐づけていきノートを完成させることになります。それにより、指導者は教えやすく、学生は学びやすくなることを目指しています。さらに、研究室全体で統一された状態になるので、研究室内での試料の比較などの考察も容易になると考えています。
② 再利用性と相互運用性を高めたデータ構造
この電子実験ノートは、実験科学研究者にとって便利な実験ノートであると同時に、データ科学者にとって利用しやすいデータが出力される実験ノートにもしたいという思いがあります。そのため、それを実現するためのデータ構造を追求しています。
実験科学研究者にとって必要なデータは、実験を再現するのに十分な情報量が網羅的に収録されていることであり(オープンデータの原則における再利用性を実現すること)、データ科学者にとって利用しやすいデータは可能な限り客観的なデータで且つ構造化されたデータである(オープンデータの原則における相互運用性を実現すること)と考えています。データを、数値データのような客観的なデータから感覚データのような主観的なデータまで切り分けて保存しつつも紐づけたデータ構造とすることにより、再利用性と相互運用性の両者を高く保ったデータ構造にすることを考えています。
3. その他
ここでは、他に工夫した機能を紹介します。全体の詳細は、別の記事でまとめる予定です。
・検索機能
2の実験ノート画面で作成した実験は、実験名やタグ、日付から簡単に検索することができ、過去のノートをすぐに開いて追記することができる仕組になっています。
・単位統一機能
数値データは単位、オーダーが揃っていることが必要です。例えば、電圧はVであり、電流はAであるという定義であったり、ミリやマイクロなどのオーダーも存在しますので、それらを事前に定義しておくことができる仕組みになっています。
4. さいごに
今回紹介した電子実験ノートは、近日オープンソースとして公開する予定です。また、このノートは実験科学はもちろん、他の用途として料理などプロセスが重要な分野でもお使いいただけたらと思っています。
ご興味がありましたら、ぜひブログのコメントやTwitter(@kumagallium)などでご連絡いただければ幸いです。
5. 参考文献
[2] biotech-lab.org
[3] computational-chemistry.com
[5] https://www.starrydata2.org
[6] https://www.jstage.jst.go.jp/article/jjspm/64/8/64_467/_article/-char/ja/
[7] https://www.tandfonline.com/doi/full/10.1080/14686996.2019.1603885
[8] Machine-learning-assisted materials discovery using failed experiments | Nature