ファイザー:アップルはAIモデルが複雑性に苦戦する理由を読み間違えている

ファイザー:アップルはAIモデルが複雑性に苦戦する理由を読み間違えている

2分で読めます
| ニュース

AppleはAIモデルが複雑性に苦戦する理由を読み間違えている

ファイザーの研究者たちは、複雑な推論における人工知能の限界に関するアップルの最近の主張に異議を唱えた。アップルの科学者が共同執筆した研究「思考の錯覚」に対する直接的な反論として、ファイザーは大規模推論モデル(LRM)におけるパフォーマンスの低下は、モデルの実際の能力よりもテスト設計に大きく関係していると主張している。

Appleの研究によると、Claude 3.7 Sonnet-ThinkingやDeepseek-R1といったモデルは、タスクの複雑さが増すにつれて性能が低下するという。研究者たちはこの低下を「推論の崖」と呼び、機械推論の限界を示すものだと示唆している。同様の結果は他の研究でも示されているが、Appleはこの低下を認知能力の限界を示す証拠として提示している。

ファイザーは推論限界ではなく検査設定を非難

ファイザー社はこの結論に異議を唱えています。同社の研究者たちは、モデルが失敗したのは非現実的な条件下で動作させられたためだと主張しています。この研究では、コードインタープリターなどのツールへのアクセスが排除され、モデルは平文で複数段階の推論を実行することが求められました。ファイザー社によると、これは人間と機械が共に現実世界の問題解決に頼る重要なサポートを奪ってしまうとのことです。

ファイザーは主張を裏付けるため、o4-miniで同様のテストを実施しました。ツールへのアクセスを拒否されたモデルは、解けるはずのパズルを誤って不可能と判定しました。原因は論理的な問題ではなく、メモリの欠陥である可能性が高いです。この同じ制限はApple自身の研究でも認められていますが、実行の問題ではなく、モデルの推論の欠陥の一部として提示されています。

o4-miniはエラーを発見し、アプローチを調整してパズルを解きます | クレジット: Khan et al (via the-decoder)

ファイザー社はこの行動を「学習性無力感」と呼んでいます。モデルが長いシーケンスを正確に完了できない場合、タスク自体が解決できないと誤って結論付ける可能性があります。研究チームはまた、累積誤差の役割にも注目しています。複数のステップからなる問題では、ステップごとの小さな不正確さでさえもすぐに蓄積されます。各ステップで99.99%の精度を誇るモデルであっても、複雑なハノイの塔パズルを一度も間違えずに解ける確率は45%未満になる可能性があります。ファイザー社は、推論の欠如ではなく、この統計的現実こそが成功率の低下を説明するものだと主張しています。

ツールを使えば、モデルは戦略的思考を示す

その後、ファイザー社は同じモデルにPythonツールへのアクセスを許可しました。結果は変化しました。GPT-4oとo4-miniはどちらも比較的簡単な問題を解いていました。しかし、難易度が上がると、2つのモデルの反応は異なりました。GPT-4oは誤りに気付かずに誤った戦略を採用していました。o4-miniは誤りに気付き、アプローチを修正して正解にたどり着きました。

ファイザー社はこの行動を認知心理学と関連付けています。GPT-4oは、ダニエル・カーネマンが「システム1」思考と呼ぶものに似ています。これは高速で直感的ですが、必ずしも反省的ではありません。o4-miniは「システム2」の行動を示します。これはより遅く、より分析的で、戦略が失敗したときに調整することができます。ファイザー社は、この種のエラー検出と自己修正が将来のAIベンチマークの中心となるべきだと主張しています。

ファイザーの分析は、Appleの研究者が主導した研究であるShojaeeらによる「思考の錯覚」(2025年)に直接対応するものです。ファイザーは、o4-miniとGPT-4oを用いて、ツールアクセスの有無にかかわらず実験を再現しました。その結果は、特に記憶、エラー蓄積、制約下での実行に関連する、現在の言語モデルの既知の問題と一致しています。

AppleとPfizerはどちらも同様のパフォーマンス低下を観察しましたが、結論は異なります。Appleは推論の限界を、Pfizerは検査方法に欠陥があると考えています。

Knowledge Network