生成型AIの大型言語モデル(LLM)の発展により、生成型AIによって作成されたコンテンツと人間によって作成されたコンテンツを識別する必要性が高まりました。例えば、学生がこれらのツールに過度に依存することで、文章やコーディングの技能発達に影響を及ぼす問題があります。その他にも盗作の問題も含まれます。本研究は、LLMツールを用いて生成されたテキスト内容の検出と識別を支援することを目的としています。LLM生成テキストは機械学習(ML)により検出可能であると仮定し、人間と複数のLLMツールによって生成されたテキストの識別・区別が可能なMLモデルを検討しました。学生執筆テキストとLLM執筆テキストのデータセットを使用し、ランダムフォレスト(RF)やリカレントニューラルネットワーク(RNN)など複数のMLおよび深層学習(DL)アルゴリズムを活用しました。また、解釈可能な人工知能(XAI)を利用して帰属における重要な特徴を理解しました。方法は(1)人間執筆テキストとAI生成テキストの二値分類、(2)人間執筆テキストと5つの異なるLLMツール(ChatGPT、LLaMA、Google Bard、Claude、Perplexity)によるテキストを区別する多クラス分類に分かれます。結果は多クラス・二値分類共に高精度を示しました。我々のモデルは78.3%の精度を持つGPTZeroを上回り、98.5%の精度を達成しました。特にGPTZeroは約4.2%の観測値を認識できませんでしたが、我々のモデルはテストデータセット全体を認識できました。XAIの結果は、異なるクラス間の特徴重要性の理解が詳細な著者/情報源プロファイルを可能にし、固有の文体的・構造的要素を強調することで盗作検出を支援し、コンテンツの真正性を強固に検証することを示しました。
ナジャールら(Thu)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: