チューリングテストは、歴史的に機械知能に関する哲学的な問いを、機械が人間の会話を十分に説得力を持って模倣し、観察者を欺くことができるかという運用的な行動基準に変換しました。この基準は、洗練された言語シミュレーションが困難とされる20世紀の技術的文脈には適していましたが、現代の大規模言語モデルはこの仮定を陳腐化させています。システムは現在、行動的に区別できない状態を常に達成しながら、同時に幻覚、推論の漂流、後知恵的合理化、文脈の分解による構造的崩壊を示します。本論文では、知能の基本原則(FPI)に基づく構造的代替としてモウラテストを提案します。モウラテストは知能を直接評価するのではなく、システムがナラティブの流暢さによってその欠如を隠さずに認識論的構造を維持できるかどうかを評価します。行動の出力を評価するのではなく、人間の審査者によって行われる再帰的文脈分解の下で、システムの内部推論構造が整合性を持って持続するかどうかを評価します。本論文では、チューリング以降の8つの代替手段を調査し、これらが既知の分布に対する能力に基づくパフォーマンスを測定する際に別の問題を適切に扱っていることを確認します。これらがカバーしていない問題は、ハイキャパシティ生成システムとの関係で浮上したものであり、システムは既存のすべての基準でパフォーマンスを最大化しながら、同時に完全な分解的崩壊を示すことができます。モウラテストはその問題に対して設計されています。モウラテストを完全に自動化することが不可能であるという主張は、対象の区別と同じ主張であると論じられています:テストは、能力とは異なる何かを測定するため、完全には自動化できません。6つの反証可能な予測が示されており、テストの陳腐化についての時間的境界の予測やプロトコル曝露によるキャリブレーターの劣化に関する予測が含まれています。行動障害モードカタログは、6つの異なる大規模言語モデルシステムとの12の公式な最初の接触の相互作用の系統的分析から導出された8つの構造的障害モードを文書化しています。事前スクリーニングキャリブレーションプロトコルは、システムの事前トリアージのために3つの構造的キャリブレーターを提供します。構造監査プロトコルは、監査者のための3層の会話ガイドを提供します。経験的証拠は、2つの文書化された相互作用と12の公式な相互作用の総合的な要約から引き出されます(DOI: 10.5281/zenodo.20241865; 制限されたコーパスDOI: 10.5281/zenodo.20241597)。CAMAF遵守:CS2(構造的透明性)。すべての主張には、宣言された認識論的ラベルが付けられています。導出チェーンは全体を通じて宣言されています。
アレクサンドロ・モウラ(Mon,)はこの問題を研究しました。