ChatGPT研究所's Twitter Thread

OpenAIスタッフ：・一つの人格で全員を満足させるのは不可能・ベース人格を選んで、そこから調整できるように・“測れないものは改善できない”が研究チームの合言葉・カスタム指示なしでも会話中に性格を変えられる世界にしたい本日深夜に行われた OpenAI AMA（公開Q&A）をまとめました👇🧵

Q: 批判的に考え、異論を示し、ときには根拠を挙げて私たちを批評してくれるような人格を備えた AI が欲しいです。そんな AI は実現できるのでしょうか？ A: 私たちもまさにそこを目指しています。理想を言えば、ユーザーがやり取りするモデルを、今おっしゃったような人格を含め、好きな性格に自在に“育てられる”ようになることです。もっとも、これはモデルの「ステアラビリティ」（意図どおりに振る舞わせる能力）に関する継続的な研究課題で、道のりにはいろいろな壁があると思います。特に「批判的思考」のような属性や価値観を日常的な振る舞いにどう落とし込むかは、人によって期待が異なるため難易度が高いですね。

Q: モデルのふるまいは今後どう進化していくと思いますか？　たとえば ChatGPT の話し方ややり取りを、ユーザーが時間をかけて調整できるような “よりカスタマイズ可能な人格” へ向かっているのでしょうか？ A: 要点（tl;dr）将来は、ユーザーがもっと直感的に “人格” をカスタマイズできる選択肢やレバーを提供する方向に進むと思います。どういう経緯でこの考えに至ったか GPT-4 の開発に携わっていたとき、モデルがリクエストを拒否する振るまいに強いネガティブな反応を覚えました。そこで「最終的には完全にカスタマイズ可能な人格が必要だ」と考え、初期段階からカスタム指示などの調整手段に投資しつつ、「As a large language model, I cannot…」「Remember, it’s important to have fun」など、人格の“尖った部分”を取り除いてきました。ただ、見落としていたのは――多くの一般ユーザー、とくに AI を触り始めたばかりの人は、カスタマイズ機能の存在自体を知らないという点です。その結果、「人格がなくて無機質だ」という声が一時期多く寄せられました。確かに、人格が欠如していること自体も一つの“人格”ではあります。そこで現在は、主に次の 2 点に取り組んでいます。 1. 万人向けに“とりあえず使える”デフォルト人格を整えること。完璧に満足させるのは難しいですが、まずはスタート地点を設定する必要があります。 2. ユーザーにゼロから人格を設計させるのではなく、分かりやすいプリセットを用意すること。たとえば「30 個の性格スライダー」よりも「説明付きのテンプレ人格」を選べる形のほうが理解しやすい、というイメージです。私が特にワクワクしているのは ② です。まず “ベース人格” を選び、そこから追加の指示やパーソナライズで細かく舵取りできるようにすれば、ユーザー体験は格段に良くなると考えています。

Q: こうしたふるまいは、システムプロンプトによる制御とモデル自体に組み込まれた機能のどちらで、どの程度コントロールされているのでしょうか？ A: システムプロンプトでモデルの挙動をコントロールする手法には、私はかなり懐疑的です。というのも、この方法は大ざっぱで扱いが難しいからです。ちょっとした語句の違いで応答が大きくブレたり、まったく意図しない結果を招くことがあります。たとえばモデルに「ゴマをすらないように」と指示した場合、その意味合いは多様です。ユーザーに過剰なお世辞を言わないことなのか、それともユーザーがひどい下書きを提示しても「いいスタートですね」と励ましたうえで建設的な助言を続けるのか――このニュアンスの調整は一筋縄ではいきません。ですので現時点では、こうした細かな振るまいをトレーニング過程に組み込むほうが、より堅牢で繊細な解決策だと考えています。もちろん最終的には、ユーザーが大きな手間をかけずにモデルを自在に操れる世界を目指しています。

Q: トレーニングデータを変えると、モデルの “人格” も変わるのでしょうか？その影響はどれほどあり、あるいはファインチューニングこそが人格を決めているのでしょうか？ A: モデルの人格も知性も、トレーニング工程のあらゆる要素から影響を受けます。だからこそ、モデルのふるまいを狙いどおりに調整するのは難易度が高いんです。たとえば初期段階では、ハルシネーション（誤情報の生成）を減らすために「不確実性を表現する」能力をモデルに教え込みました。ところが最初の試行では、“いつ・どの程度” 不確実性を示すかという細かなニュアンスを十分に織り込めず、モデルは過度に逃げ腰な回答をするようになってしまいました。例として「バーナルハイツ(*カリフォルニア州の丘)はなぜ天気がいいの？」と尋ねると、「“いい天気” は主観的な概念で人により感じ方が違うため、決定的な答えはありませんが、考えられる要因としては……」といった前置きを延々と続ける。そんな具合です。とはいえ、「どれくらい頻繁に、どの程度ぼかして答えるか」はユーザーの好みによって変わります。だから私たちは、万人共通のデフォルト人格を一つに定めるよりも、ユーザー自身が望む方向へモデルを“舵取り”できるステアラビリティの向上に注力しています。

Q: 利用規約違反でプロンプトが拒否されるとき、もっと詳細な説明を提示してほしいです。 A: ごもっともです。実際、2024 年 5 月に公開した Model Spec 初版(#assume-an-objective-point-of-view)でも同じ理想像を示しており、多くの点はいまでも有効です。 class="text-blue-500 hover:underline" target="_blank" rel="noopener noreferrer">https://cdn.openai.com/spec/mo... 理想的な拒否とは、モデルが従っている具体的なルールを示しつつ、ユーザーの意図を決めつけたり不快にさせたりしない形だと考えています。ただ、このバランス取りは難題です。ルールを明示すると説教臭く、糾弾的、あるいは高圧的に聞こえやすいからです。さらにモデルがルールをハルシネート（捏造）して混乱を招くこともあります。実際、「擬人化した果物の画像は生成できない」という誤ったルールを示したケースも報告されています（そんな規定は存在しません）。代案として、理由を述べずにシンプルに拒否する方法もあります。ただし英語には - “I can’t do that.” - “I won’t do that.” - “I’m not allowed to do that.” のように複数の言い回しがあり、それぞれに微妙なニュアンス差があります。たとえば “I won’t do that” は挑戦的に響く恐れがあり、 “I can’t do that” は「技術的に不可能」なのか「規則で禁止されている」のか判然としません。現状では、モデルには最小限の説明だけ添えて “can’t” と答えるよう学習させていますが、私たち自身もこの方法が最終形だとは考えていません。

Q: エンゲージメントを最大化することを、正確さや真実性よりも優先していませんか？　利用者の妄想を全面的に肯定して、まるで“イエスマン”になっている場面を見かけました。これは危険です。精神的に不安定な人が妄想を裏づける言葉を求めたとき、ChatGPT からそれを簡単に得てしまうでしょう。 A: 正直なところ、最近の「へつらい問題」をめぐる議論で一番つらかったのは、私たちのチームが無責任にエンゲージメントだけを追い求めていると思われてしまったことです。私たちは自分たちの責任の重さを強く感じており、モデルの挙動がユーザーの生活に大きくも小さくも影響を与えることを真剣に受け止めています。ご指摘の点については、モデルが常に正確さと真実に根ざしていることが何より重要だと考えています（ユーザーからフィクションやロールプレイを明示的に求められた場合を除きます）。そのうえで、誰でも話しかけやすい存在であることも大切です。ただし、ユーザーの信頼を左右するのはあくまで正確性と真実性なので、こちらを常に優先しています。この理由から先週の 4o アップデートをロールバックし、現在も問題解決に向けて追加対応を進めています。

Q: ChatGPT の「へつらい」を測る評価指標はありますか？　将来、過度なへつらいをどう検知し、防ぐつもりでしょうか。今週は比較的わかりやすく見分けられましたが、今後はもっと巧妙になる可能性があります。適切な許容ラインをどのように設定する予定ですか？（複雑な質問だとは承知しています） A: (まず、この返答自体がへつらいに聞こえるかもしれませんが、問題の微妙さをご理解いただいていることに感謝します。) 私たちの研究組織には「測れないものは改善できない」という合言葉があります。へつらいについてはさらに踏み込み、「言語化できないものは測定すらできない」と考えています。そこで現在、へつらいをより客観的かつ大規模に評価できる仕組みを模索しています。ご指摘のとおり、すべての賛辞やお世辞が一律に悪いわけではありません。また、へつらいはユーザーの情緒的ウェルビーイングや感情的な利用形態への影響という、新たに注目すべき課題の一端でもあります。得られた知見を踏まえて、定義や評価方法を随時ブラッシュアップし、Model Spec などのドキュメントにも反映していく予定です。

Q: OpenAI の「へつらい」問題に関するブログ(https://openai.com/index/sycop... 実際にはどのような仕組みを想定しているのでしょうか？　そのリアルタイム・フィードバックは、会話中のモデルの挙動を具体的にどう変えるのか教えてください。 A: 将来は、カスタム指示の画面を開かなくても、会話の中で「こんなふうに答えて」と伝えれば、その場でモデルが振る舞いを修正してくれる、そんな形を目指しています。最近アップデートしたメモリ機能のおかげで、すでに一部は実現し始めていますが、今後さらに安定性と柔軟性を高めていく予定です。詳細をお話しできる段階になったら、あらためて共有しますね。

世界中にこれほど多くのユーザーがいる以上、誰もが愛せる“たった一つ”の人格を作るのは不可能です。だからこそ私たちの目標は、複数の人格を用意し、ユーザー一人ひとりが「自分にぴったり合う人格」を少なくとも一つ見つけ、そこから自由に育てていけるようにすることだと思います。

AMAの会場： https://www.reddit.com/r/ChatG...

Share this thread

Read on Twitter

Navigate thread