炎鎮🔥 - ₿onochin -'s Twitter Thread

あー、なんとなくわかった。 GPT-4.1の評価が分かれてる理由。結論から言うと、使ってるエディタというかエージェントの差異(GitHub CopilotなりCursorなり)だと思う。 GPT-4.1は、それ単体がデフォルトで柔軟にAgenticにふるまうLLMではなく、「言われてないことは基本的にしない」ようになっていて「ふるまいを徹底的に細かく指示することで、"あなたの考える最強のAgentic"を定義してね」というモデル。だから、過去にGPT-4oだったり、Claude 3.7 Sonnet用に構築されてるAgentでは、Instructionが不足してる/不適合なんじゃないのかな。プロンプトの方針も、これまでと結構違うし。んで、調べてると、自分もそうだけど、GitHub CopilotのAgentモードでGPT-4.1を使ってる人達からの評判は結構良いのよ。これシンプルに、事前に結構GPT-4.1の扱いについて、OpenAIとかMS、GitHubのエンジニアが距離感近くすり合わせしたからなんじゃないのか。

調べてないけど、windsurfで使ってる人からの評判も良かったりしない？事前にOpenAIと検証してたよね。

Share this thread

Read on Twitter

Navigate thread