Python、機械学習

事例調査_MIを活用したナノシート材料の高効率合成

実験データが少なくてもスパースモデリングとドメイン知識で説明変数を大胆に減らし、精度そこそこの重回帰モデルで、狙うべき実験条件を見積もった事例です。

マテリアルズインフォマティクスを活用してナノシート材料の高効率合成が初めて可能に-実験科学者の経験や勘とデータ科学手法(人工知能)の協働-

背景の整理

層状化合物を、できるだけ1層ずつバラバラにすることが目的です。この1層の厚みがナノサイズなので、ナノシートと呼んでいます。

層間にアミン系分子を介在させ、溶剤に浸けることで1層ずつバラバラにしていきます。

よりバラバラにできるアミン、溶剤を探索したい。

説明変数X:アミン、溶剤に関する物性値…35種

目的変数y:ナノシートの収率%

教師データ:60個(アミン8種×溶剤13種 = 104データのうち、収率が極端に低い44データを除いたもの)

説明変数を減らす

元の35種の説明変数は、実験者で議論して決めたとのことです。また、各説明変数のデータの収集は、文献や計算、あるいは実験などさまざまです。

まずは、LASSOやMCP(minimax concave plus)といったスパースモデリングを使って、説明変数を減らします。今回はMCPを使って35→16種に減らしています。

次に、16種それぞれについて、使う使わないの2パターン、つまり2^16通りの説明変数の組み合わせで重回帰モデルを組んで、精度を評価します。そして、16種の中から高精度に寄与する5種の説明変数に絞り込みます。

さらに、5種の中から実験者の考察、およびデータの得やすさから2種に絞り込みます。

重回帰モデルを組んで、未知の組み合わせを予想する

35種から2種に絞り込んだ説明変数で重回帰モデルを組んで、収率が高くなる未知のアミン、溶媒の組み合わせを見積もります。

未知の81組み合わせのうち、高収率と予想された11組み合わせを抽出し、実際に実験します。11組み合わせのうち4つはかなり収率が良かったようです。

ポイント

説明変数を大胆に減らすことで、少ないデータでもモデルが組めるようにした点に加えて、説明変数のデータを揃えるハードルや手間を最小限に抑えられたおかげで、探索できる未知条件が広がった点がポイントだと思います。

モデルの精度や適用範囲などにはこだわらず、高収率の条件を見つけるという結果にこだわる点が印象的でした。