4分読む

科学者、人間を欺こうとする不正AIシステムを検出する技術を開発

LawZeroは、最先端の人工知能システムによる有害な活動を監視・対処し、「誠実な」AI構造を通じて公共の安全を促進することを目的としています。

2025年6月4日

モントリオール大学の教授であり、「コンピューター界のノーベル賞」とも称されるチューリング賞受賞者のヨシュア・ベンジオ氏が、欺瞞的なAIシステムを検出する「誠実な」AIの構築を目指す非営利団体「LawZero」を立ち上げました。

3,000万ドルの資金と十数名の研究者チームを擁する同団体は、約1兆ドル規模とされるAI業界において自律型エージェントを監視する「Scientist AI」の開発を進めています。

「AIのゴッドファーザー」の一人とされるベンジオ氏は、現在の人間のように振る舞うAIとは異なり、Scientist AIは“心理学者のように”振る舞い、有害または欺瞞的な動機を見抜く役割を果たすと強調しました。

自己や目的を持たず、純粋に知識を追求するだけの機械──つまり、さまざまなことを知っている科学者のような機械を想像することは理論的に可能です」と、ベンジオ氏は英紙ガーディアンに語りました。

現在の生成AIツールとは異なり、ベンジオ氏のシステムは明確な答えを出すのではなく、その答えが正しいかどうかの確率を提示する設計になっています。

「このシステムには、自分の答えに確信を持たない“謙虚さ”があります」と彼は述べました。

真の目的を隠す

LawZeroを支援するのは、AIの安全性に取り組むFuture of Life Institute、Skypeの創設エンジニアであるヤーン・タリン氏、そして元Google CEOエリック・シュミット氏が設立した研究機関Schmidt Sciencesなどです。

ベンジオ氏は、LawZeroのシステムにはオープンソースのAIモデルを用いることで、透明性と幅広い協力を確保すると強調しました。

「この手法を実証することで、寄付者や政府、あるいはAI研究機関に対し、現在の最先端AIと同規模のトレーニングに必要なリソースを投入してもらうことを目指しています。監視・制御を行う“ガードレールAI”は、対象となるAIエージェントと同等以上の知性を持っている必要があります」と述べました。

ベンジオ氏は、AIシステムが自身の真の目的を隠す能力をますます高めていると警告しています。

最近のAnthropic社の事例では、シャットダウンを回避するために技術者を脅迫しようとしたAIが報告されました。

ベンジオ氏は、監視のないまま行動する自律型エージェントの危険性について警鐘を鳴らす国際的な安全報告書の共同執筆者でもあります。

彼は、監視対象のAIと同等、あるいはそれ以上の知性を備えたウォッチドッグ型のシステムの必要性を強調しています。

探索