Dr.Carrasco2: AIは論文を評価できるか～研究者と査読者の終わりなき戦い～――Dr. 呼坂の「デジタルヘルスUPDATE」（112）

以前、私が紹介した記事（氾濫する「論文工場」との戦い、ChatGPTを用いた論文作成は手抜きか否か）では、 AI（ChatGPT）を用いた論文作成について紹介し、その能力と可能性について論じた。では、論文の査読についてはどうか？ 2022年12月のNature誌の記事では、AIを用いた査読についてはまだ発展途上だろう[1]。幸か不幸か、私は数えるほどしか論文の査読を行ったことはない。査読を行った先生のお話を伺うと、その作業は大変。忙しい業務の合間を縫って論文を読み、実験方法を評価。内容が満足できるものであれば、科学の発展にとって有意義だが、貧弱な研究内容であった場合は、査読にかけた時間は無駄になってしまう。おまけに、昨今の論文作成方法は「論文工場」や「AI論文」といった手段を用いて、効率的に見栄えの良い論文を作成してくるため、多勢に無勢[2]。そこで、AIを利用して査読者の負担を軽減する取り組みが加速している。 AIは、以前から査読を効率化するために検討されてきた。オランダの研究者が開発した「statcheck」は、論文中の統計的な誤りを指摘するツール[3]。画像データの加工を検知するソフトウェア「proofig」もあり、一部の出版社は、データを加工している科学者をつかまえるためのソフトウェアを使用[4]。論文工場から生まれた論文を見つける「papermill alarm」を公開している研究者も[5]。今回、英国の主要な公的研究助成機関が委託した研究では、英国のResearch Excellence Framework（REF）に提出される学術論文の査読をアルゴリズムがどのように支援できるかが検討され、結果が2022年の12月に公表[6]。 ●AIを用いた査読に関する研究 REFは、英国の高等教育機関で行われた研究に対する監査であり、 2022年5月に最新の結果が公表。 REFによって、英国内の157機関7万6000人を超える研究者による18万5000件超の研究成果が評価され、約20億ポンド/年の資金が英国の教育機関にどのように配分されるかが決定される。次回のREFは、2027年または2028年に実施される予定。今回の研究では、AIによって評価プロセスの負担を軽減できるかどうかが検証された[1][7]。研究では、15万本弱の科学論文の査読データを評価。ウルヴァーハンプトン大学のデータサイエンティスト、マイク・テルウォール氏は、 REFの査読者が論文につけた評価と同様のスコアをアルゴリズムで得られるかどうか確認するため、さまざまなAIプログラムをデータに用いている。 12月12日に発表された研究結果によると、AIシステムは72％の確率で人間の査読者と同じ評価を行った。しかし、実用に堪えるレベルとなると、 AIシステムに望まれる精度は95％程度だろうとテルウォール氏は語っている。 ●AIを使った査読の問題点研究では、いくつかの問題点が指摘。まず、AIシステムはREFに多くの論文、つまりサンプルが提出される機関からの評価には役立っていたものの、論文数が少ない機関からの評価にはあまり役立たなかった。論文査読特有の課題も。精度向上のためにはより広い規模でテストを行う必要があり、すべての論文資料を利用することは困難。査読者が付けたスコアは、後で決定に異議を唱えることができないよう削除されるため、データを蓄積することが難しい点も指摘。質の高いAIには、透明性を持ったデータが必要だが、査読に関わるデータは、教育機関にとっては研究費の獲得にかかわる死活問題であり、AI開発は難航しそう。研究政策学者でロンドンにあるResearch on Research Instituteのディレクターであるジェームズ・ワイルズドン氏は、「研究対研究という観点から見た時、これだけの努力をしたのにデータが削除されてしまうのは悲劇だが、お金が絡んでいるため、大学が法的な異議を申し立てることを常に恐れている」[1]。 ●査読におけるAIの活用法テルウォール氏は、「私たちは、AIプログラムが、査読者が何らかの形で役に立つ情報を提供できるかどうかを調べている」。「査読者が論文を評価する際、考慮すべき点をAIが提案することができるかもしれない」と。論文の評価が査読者の中で分かれた際、AIを審判として利用することも考えられるとテルウォール氏は指摘[7]。「AIがREFのプロセスに関与することはもっともらしいように思えるが、その役割が何であるかは完全には明らかではなく、原稿に点数をつけるためにAIを使うことには反対だと述べるのは、米国イリノイ州シカゴ大学で科学におけるAI技術の利用を研究しているイーモン・デュエード氏。ドイツ・ミュンヘンのコンサルタント、アンナ・セヴェリン氏も、「査読者の代わりにAIを活用すべきではない」とし、「ＡＩや機械学習が作業負荷の軽減に役立つ分野は、実際の査読プロセスを取り巻く管理業務やプロセス、サポート」[7]。 AIの応用方法のひとつは、適切な査読者を見つけること。最近の分析では、研究者が査読の依頼を断ることが多くなる一方、常に査読依頼を受け続けている一部には、偏見や利益相反のある人物が交じっている可能性があるため、 AIの活用が期待されると記事では述べられている[7]。 ●あくまでAIは「効率化」のため現在の欠点を考慮すると、テルウォール氏とそのチームは、 2027年または2028年に実施される予定の次のREFプロセスにおいて、 AIシステムを査読の補助に使用すべきではないが、 REFプロセスの評価に活用できるかもしれない［1］。確かにAIの下す決断が意味のあるものだとしても、評価項目がバレてしまうと対策がされてしまう。これではまるで落語のような話になりそう。論文の査読に関わる事務作業、たとえば著者の所属や業績に問題がないかどうかや引用文献の内容の評価、共著者への連絡といった事務作業の軽減には役立ちそう。研究のためには、研究費が必要。研究費の獲得のためには、既存の研究や論文が評価されることが必要で、テクニックの部分に研究者側・査読者側ともに振り回されているような印象がある。面白い研究や壮大な研究にどんとお金がつけば良いとも思うが、詐欺のような話も出てきそうで、都合のいい事にはならなそう…。【参考】 [1] Nature. AI system not yet ready to help peer reviewers assess research quality [2] Nature. Papermill alarm’ software flags potentially fake papers [3] Statcheck [4] Proofig [5] Papermill Alarm API Documentation [6]Can REF output quality scores be assigned by AI? Experimental evidence [7] Nature. Should AI have a role in assessing research quality? https://medicalai.m3.com/news/230330-series-kosaka112

2023年4月7日金曜日

AIは論文を評価できるか～研究者と査読者の終わりなき戦い～――Dr. 呼坂の「デジタルヘルスUPDATE」（112）