もちごめ's Twitter Thread

o1〜o3 miniとDeepSeekは人狼の簡単な盤面整理もちゃんとできる Sonnet3.5は最後の詰めをミスるけどreasoningモデルでないなりに健闘 Gemini Thinkingは間違いを指摘して以降も間違え続けるボロボロぶりだった(騎士Eが占いBで護衛成功しているといことは占いBは人狼です！と自信満々に繰り返した)