UCLAより、GPT-4oの画像生成の得意不得意を包括的に調査した研究が出た。 GPT-4oの画像生成は非常に優秀だが、 ・左右反転などの空間認識力が乏しい ・「〜だけを変えて」のような条件付きが苦手 ・前に作った画像を正確に参照できない などの弱点があることがわかった。 画像生成時には要注意だ。
GPT-4oの画像生成が苦手な注意点はこちら: 1. 左右反転できない:「左右を逆に解釈して」と言われても無視する 2. 数字の加減算ができない:「数字に2を引いて」と指示されても「5羽の鳥」は5羽のまま 3. 全体ルールより個別指示を優先:抽象的なルールより具体的な単語に反応 4. 部分編集ができない:「水面の反射だけ変更」としても全体を変えてしまう 5. 関係ない部分まで変わる:一箇所直すと背景なども勝手に変更される 6. 複雑な手順に混乱:複数ステップの編集指示を正確に実行できない条件文を無視:「~の場合のみ実行」という条件を考慮せず実行してしまう 7. 前後の記憶が弱い:前に作った画像の内容を次の生成で正確に参照できない 8. 仮定の処理が苦手:「もし地球が平らなら」といった仮説条件を適切に処理できない
他にも、知識や理解に関して次のような弱点も指摘されている: 9. 言葉と画像の断絶:言語で理解していることを視覚的に表現できない 10. 表面的な単語理解:「犬」や「左」という言葉は知っているが、その意味の柔軟性を理解していない 11. 制約を守れない:「特定のトピックだけで」と言われても無関係な内容を生成 12. 言語と画像の連携不全:言語モデルの理解が画像生成に伝わっていない 13. うわべだけの理解:「わかりました!」と返事しても実際は指示を反映できない 14. 柔軟性の欠如:文脈に応じて概念を再解釈する能力が限られている
GPT-4oの画像生成のネガキャンみたいになってしまったが、総じてGPT-4oの画像生成はとても優秀で、個人的にもどんどん使っていきたい。 その上で、上記のような点に注意しながら生成をしていくと、時間的にもお金的にも無駄にせず良い。 ということを伝えたかったです。どんどん使っていきましょう!

