Published: April 16, 2025
4
118
747
あー、なんとなくわかった。 GPT-4.1の評価が分かれてる理由。 結論から言うと、使ってるエディタというかエージェントの差異(GitHub CopilotなりCursorなり)だと思う。 GPT-4.1は、それ単体がデフォルトで柔軟にAgenticにふるまうLLMではなく、「言われてないことは基本的にしない」ようになっていて「ふるまいを徹底的に細かく指示することで、"あなたの考える最強のAgentic"を定義してね」というモデル。 だから、過去にGPT-4oだったり、Claude 3.7 Sonnet用に構築されてるAgentでは、Instructionが不足してる/不適合なんじゃないのかな。 プロンプトの方針も、これまでと結構違うし。 んで、調べてると、自分もそうだけど、GitHub CopilotのAgentモードでGPT-4.1を使ってる人達からの評判は結構良いのよ。 これシンプルに、事前に結構GPT-4.1の扱いについて、OpenAIとかMS、GitHubのエンジニアが距離感近くすり合わせしたからなんじゃないのか。
調べてないけど、windsurfで使ってる人からの評判も良かったりしない?事前にOpenAIと検証してたよね。
