ライフサイエンス研究のツールとしてのChatGPTおよびBioGPT

Benjamin Raven著(英国シェフィールド大学、博士課程在籍(細胞老化研究))


近年、ライフサイエンスの分野における人工知能(AI)技術の利用が急速に進んでいます。AIツールの1つとして最近の研究コミュニティでも人気を博しているのが「ChatGPT(チャットジーピーティー)」です。本稿では、ChatGPTとは何か、それがどのように機能するのか、ライフサイエンス研究者がChatGPTをどのように利用できるのかについて解説します。本ブログ記事の草稿作成者も実は…。最後に驚きの事実が明らかになります。ぜひご覧ください。

※本稿では、以下の英文記事を日本語訳して掲載しています。
https://www.ptglab.com/news/blog/chatgpt-and-biogpt-as-tools-for-life-science-research/

 

ChatGPTとは?

ChatGPTとは、安全で有益なAIの創造を目指すOpenAI社(米国)が開発した大規模言語・機械学習モデルです。ChatGPTは、書籍、文献、ウェブサイト情報等の大量のテキストデータから学習を行います。自然言語のクエリに対して人のような回答を生成するように設計されていることから、幅広い応用が利く有用なツールとなっています。

 

ChatGPTはどのようなことに使用されている?

ChatGPTは、主に言語翻訳、テキストの要約、質問回答等の自然言語処理タスクに使用されており、ライフサイエンス分野での今後の活用も見込まれています。

ライフサイエンス研究で最も重要な課題の1つに、膨大な科学文献を分析し、そのパターンや関係性、新たな発見につながる糸口を明らかにすることが挙げられます。公開されている研究成果は膨大であるため、従来の分析方法では多大な労力を要するうえ、エラーが生じやすくなります。

ChatGPTは、科学文献を分析し、新たな仮説を生み出し、従来の方法では見逃されていた可能性のある識見を発見できる新規のアプローチを提供します。

 

ChatGPTは研究に活用できるか?

ChatGPTは様々な用途で研究に活用できるでしょう。例えば、科学文献を分析し関連情報を抽出するために使用することができ、研究者が最新の研究動向を把握したり、新たな研究を立ち上げる好機を見極める際に役立ちます。また、既存のデータに基づいて仮説を生成するために使用できる可能性もあり、研究者が新たな研究の方向性を見出す際にも役立ちます。

ライフサイエンス研究の分野におけるChatGPTの最も有望な応用例の1つが創薬研究です。創薬研究のプロセスは多大な時間と開発費用を要するプロセスであり、大規模な実験や解析を行う必要があります。ChatGPTを使用すれば、化学構造に基づく創薬候補物質の活性の予測が可能となり、大規模な実験の必要性も低減できる可能性があります。

ChatGPTの有用性は研究や発見だけに留まるものではなく、コミュニケーションツールとして特に効果を発揮します。ChatGPTは、論文のAbstractやIntroductionを作成でき、投稿用のブログ記事全体すら執筆してしまう程であり、その能力は並外れています。一方で、ChatGPTの生成文書に対する推敲やファクトチェック(事実確認)は欠かせません。しかし、論文の主要部の基幹を生成するその速度は、科学的文章の作成工程の劇的な効率化に貢献するでしょう。このChatGPTの能力により、短時間で高品質な文章を生成できるようになります。日々膨大な実験・研究をする中で、質の高い研究を続けるためにはこのような能力は切実に必要とされます。

 

ChatGPTの機能

ChatGPTの機械学習プロセスは「教師なし学習(unsupervised learning)」と呼ばれる方法に基づきます。すなわち、学習内容や学習方法に関する系統立った指示なしに、大量のテキストデータで学習を行うことを指します。系統的指示を与えられる代わりに、連続するテキストから次の単語を予測するというタスクが課されます。このタスクを繰り返し実行することで、ChatGPTは言語のパターンを認識・学習し、文章の根本的な構造を習得します。

一度学習させれば、ChatGPTはプロンプト(ユーザーによって入力される指示や質問)を与えられることで指示に従ったテキスト生成を実行できるようになります。例えば、質問または文章を入力すると、ChatGPTは習得した言語に基づいた回答を出力できます。ChatGPTの回答は、新たな洞察の創出、仮説の検証、データの傾向の特定等に利用することができます。

ChatGPTは「ニューラルネットワーク」を使用して、自然言語クエリに対する回答を生成しています。ニューラルネットワークは大量のテキストデータに基づくトレーニングを受けており、単語やフレーズ間のパターンと関連性を学習しています。ユーザーが自然言語クエリを入力すると、ChatGPTはニューラルネットワークにより人間が発したかのような回答を生成・出力します。

ニューラルネットワークはヒトの脳の構造と機能から着想を得た機械学習モデルであり、相互接続した「ノード」の層で構成され、入力データを処理して変換し、出力予測を生成します。学習の間に、ネットワークは予測値と実際の出力値の間の差を最小化できるようノード間の結びつきの強さを調整することで、生成する情報の精度を高めます。この最適化のプロセスは「バックプロパゲーション」と呼ばれる数学的手法によって遂行されます。ニューラルネットワークは与えられたデータの複雑なパターンや関係を学習する能力を持つため、画像認識、自然言語処理、ゲームプレイ等の幅広い用途に応用され成果をあげています。

ChatGPTのニューラルネットワークは文脈上適切で文法的に正しい回答を生成できるように設計されており、統計解析とパターン認識を併用してユーザーのクエリに関連した回答を生成します。しかし、ChatGPTは機械学習モデルであるため、その回答が必ずしも正確かつ信頼できる内容であるとは限りません。ユーザーが研究目的でChatGPTを使用する場合は特に注意を払う必要があり、常にその他のソースを利用して回答を検証してください。

 

ChatGPTとBioGPTの制約

「BioGPT」は、OpenAIによって開発された生物学の分野に特化した事前学習済みの大規模言語モデルです。BioGPTは、OpenAIで人気の高いGPTシリーズのモデルと同一のアーキテクチャをベースにしており、生物学分野の科学文献の大規模なコーパス(corpus)をベースに微調整されています。この微調整により、BioGPTは生物学に関係するクエリやプロンプトに対して、より精度と関連性の高いテキストを生成します。BioGPTは質問への回答、文書の分類、名前付きエンティティ認識(NER:named entity recognition)等の様々な自然言語処理タスクにおいて有望視されており、生物学の分野における科学研究や発見を著しく促進する可能性を秘めています。

しかし、このような言語モデルは既存の科学文献を基にして学習しているため、ソースとなる文献に存在するバイアスに対し脆弱であるという懸念が存在します。ニューラルネットワークでは与えられた情報と同程度の正確性の情報しか提供することはできません。そのため、科学文献に存在する可能性のある不正/欠陥を鑑みると、バイアスが常に紛れ込むのは避けられません。

また、ChatGPTは参照先(reference)を要求された場合に不正確な参照先を提供することが知られています。ChatGPTは非常に優れたテクノロジーではありますが、誤った回答が出力された場合にその情報がさらに伝搬しないよう、生成された内容を精査し検証する必要があります。AI言語モデルにより得られた回答中のバイアスを調査してバランスを保つことは非常に重要であり、発表する研究内容にAIの回答を単純に反映させてはなりません。現時点でChatGPTやBioGPTはテキストベースのモデルであり、画像や映像から学習することはできません(例:病理標本、CTスキャン)。

画像を情報源とする言語モデルは既にいくつか存在し、例えばVLP(Vision-Language Pretraining)モデルが挙げられます。こうしたモデルは、画像とテキストデータの両方を使用して学習し、画像のキャプションの生成や入力画像に基づいた回答を生成することが可能です。

今後、画像等の複数の情報(モダリティ)を組み込んだ言語モデルの開発はさらに進歩し、異なる文脈における言語を習得する能力が強化され、より精度の高い回答を生成できるようになると期待されています。

 

最後に

結論として、ChatGPTはライフサイエンス分野の研究等の幅広い自然言語処理タスクに使用できる強力なAIツールであると言えます。AI技術は研究者による科学文献の分析、仮説や研究手法の創出、創薬研究の遂行に革命をもたらす可能性を秘めています。しかし、ChatGPTを研究目的で使用する場合はAIの生成される回答に特に注意を払い、それぞれの回答をその他のソースを参照して検証することが極めて重要となります。AIテクノロジーが今後も進歩することによって、ライフサイエンス研究者は生命の謎を解き明かし、最終的には人類の健康増進等に貢献する、さらに高度なツールやアプリケーションの登場につなげることができるでしょう。

 

驚きの事実:このブログを書いたのは?

プロンプトに対して人が書いたような質の高い回答を生成するChatGPTの能力が、このブログ記事によって効果的に実証されたことを願っています。実はこのブログ記事は大半がAIにより執筆されたものです。例えば「ニューラルネットワークの仕組みについて100ワードで要約してください」等と指示するプロンプトを入力し、出力された回答の収集、編集、ファクトチェックを実施しました。筆者自身が十分に詳しくない分野についてChatGPTを活用することで執筆する能力は著しく向上し、アイデアを効果的に伝える一助となります。実際に筆者がこのテーマについてブログを執筆するにあたり、ChatGPTは指針となり、リサーチクエスチョンを具体化するのに役立ちました。

結局のところ、読みやすい文章を作るにはいまだに人間の目と手作業が必要であることに変わりはありません。しかし、このAIテクノロジーが進歩する速度には驚くべきものがあり、私たちが日常的に接する科学や科学以外の分野のあらゆるメディアにAIが堅固に組み込まれる日もそう遠くはないでしょう。

実際に現在でもGrammarlyやMicrosoftのEditor機能等の、スペルチェックや文法チェック機能のあるAIを搭載したソフトウェアは文章の傾向を判断し、文章全体を通じた時制や文脈の一貫性を確保するのに役立っています。AIが文章を作成する日常的ツールではないと主張することはもはや難しいでしょう。AIテクノロジーは、既に世界中の何十億人もの人々に利用されており、精度と複雑性は進歩の一途をたどっています。要するにAIテクノロジーは著述や研究成果創出のための必需品となっており、目新しいことといえばこのテクノロジーの進歩と幅広い分野への波及についてだけなのです。広告やマーケティングから文献レビューに至るまで、このAIテクノロジーがこれから何を可能にするのか、どのような新しいアプリケーションが発見されるのか、興味が尽きることはありません。