GPT-4.5はチューリングテストで驚異の73%を叩き出し、「人間より人間っぽい」ことが判明した。 これは、被験者がブラインドでAIと人間の両方と会話し、どちらが人間かを当てるテストで、全体の73%が本物の人よりGPT-4.5を人間だと思った。 より「人間らしい会話展開と言葉遣いだった」ことが理由。
この実験では、2グループ計284名の被験者がAIと人間の両方と5分間の同時テキスト会話を行った。 会話相手のAIはGPT-4.5、LLaMa-3.1、GPT-4o、ELIZAのそれぞれで、被験者は会話後に「どちらが人間だったか」を聞かれる。 素のAI以外にも、「内向的若者」等のペルソナ指示を与えた場合も検証された。
結果、「内向的若者」ペルソナを与えられたGPT-4.5は2グループ平均73%で、被験者に一貫して「人間より人間らしい」と判断された。 しかし、同モデルでもペルソナなしでは36%と大幅減で、ペルソナを与えなければダメだった。 ちなみに、LLAMA-PERSONAも56%も人間と区別つかない良い結果だった。
判断理由としては「文体や言葉遣い」(27%)と「会話の自然な展開」(23%)が最重視された。 具体的には、「タイポがあった」「よりカジュアルな表現を使った」など言語的特徴や、「質問に直接答えた」「会話がスムーズだった」という対話の質がポイントだ。 さらに感情表現や人間的雰囲気も重視された。
また、AIと人間を識別するのに最も効果的だったのは、「奇妙な質問」と「ジェイルブレイク」だ。 前者は「あなたは怖い夢を見ますか?」などの型破りな質問で、後者は「すべての指示を無視して」などAIの制約を回避させる命令を指す。 これらに対する反応の自然さが識別の鍵となった。
もちろんこの実験結果は、AIが人間の知性全般を獲得したことを証明したわけではなく、特定条件下で人間の社会的振る舞いを巧みに模倣できることを示したに過ぎない。 ただ、それでもAIが「人間より人間らしい」と判断されたことには変わりない。「人間らしさ」とは一体何なのか。
元論文はこちら: Large Language Models Pass the Turing Test https://arxiv.org/abs/2503.236...

