GPT-4.1への移行で気をつけること

現時点でGPT-4.1への移行で気をつけたほうがいいことをだらだら書いていきます。随時更新。

キャラクター寄り・創作寄りの観点がメインなので、実用寄りの活用をしている人は、公式の案内を熟読したほうがいいと思います。

プロンプトの更新に関する具体例については、下記の記事もあわせて確認してください。

meatlog.de10.moe

このモデルはそもそも何なのか

GPT-4.1は、GPT-4oの後継として、そしておそらくGPT-4.5の好評を受けて、来たるべきGPT-5が出るまでの需要を埋めるための中継ぎモデル群と考えられます。

ですので、おそらく以下のものではありません。ここを勘違いすると、GPT-4.5の時のように不幸な人が出てくるので注意してください。

  • o1・o3-miniの後継ではない
    • 論理思考が賢いreasoning系モデルを必要とする方は、o3・o4-miniの発表を待ってください。 →出ました!

ただし、非reasoning系モデルではあるもののコーディング向けではあるそうです。以前ここに書いていた一部(Web版4oの最新スナップショットだとか)は撤回します。申し訳ねえ…

GPT-4.1シリーズの使い分け

  • gpt-4.1
    • GPT-4.5に比肩するぐらいに圧倒的に面白いことを言うようになった。
    • gpt-4oよりちょっと速くて安い。つまり、速い、安い、うまい。すごい!
    • 応答までの時間に余裕を持たせられるSNS botとかに最適。
    • 一次創作クラスタの人が、まあまあ納得できるレベルがだいたいこのぐらい。
  • gpt-4.1-mini
    • gpt-4oよりかなり安くて速くて、gpt-4oよりちょっと劣る程度。
    • ほどよくエンタメ寄りで、かつリアルタイム性の高い応答が必要な時に適している。
    • AITuberのメインLLMとしては最適に思える。A
    • toolの利用が甘いらしい (うえぞうさん情報)
  • gpt-4.1-nano
    • gpt-4o-miniで高精度で実行できていたようなシンプルなタスクならこれで十分。安くて速い。
    • 長期記憶系の管理のバックエンドに使うには、entity抽出とかはちょっと荷が重いかも…?要約ぐらいなら十分いける。
    • 言葉の取り扱いはすごく雑なので、口調修正とかには向かないかも…

画像認識のトークンの計算が変わっているので注意

https://platform.openai.com/docs/guides/images?api-mode=responses

ここの下のほうで見られる通り、画像認識のトークンの計算が変わっているので注意。

  • detail=low/highの設定がなくなった
  • 32x32pxのタイル1枚が1トーク
  • 最大がタイル1536枚で、それより高解像度の画像を投げたら自動縮小される
  • gpt-4.1-miniの係数が1.62、gpt-4.1-nanoの係数が2.46 (32x32のタイル1枚あたり、それぞれ1.62・2.46トークン計算になる)

ざっくり概観

  • gpt-4o時代のどんぶり勘定状態と異なり、実質的に入力する画像の解像度ベースでの従量課金になった
  • gpt-4.1の画像認識はほんのり値上げ。特にdetail=lowで使っていた人はそこそこ値上げ。
  • gpt-4.1-mini / nanoを画像認識で使う理由が出てきた。係数を掛けても安くなる。

プロンプト追従力が強くなったので、その分表現を弱めること

プロンプトの読解力と追従力がついて、GPT-4.1については、Claude・Gemini・Grokなどのライバルの大パラメータモデルと比肩するレベルまで大幅に賢くなったので、システムプロンプト内の表現を逆に弱める必要があります。

「絶対に~」とかを多用している人は大半を撤去し、たまに従ってほしいことは「時々」など意図的に弱める必要があります。

当方で現在運用中のプロンプトでは、バラつき優先のために強調表現は削っていたため、下記の例の通り意図的に弱める変更だけを行いました。

返事は超短め
 ↓
返事は短め

より砕けた言葉を使えるようになったので、その分の指示を弱めること

「フランクに~」とか、もう一歩進んで「毒舌」とか書いてあるプロンプトは、効きすぎる傾向に気づきました。

安全性のポリシーを緩めたか、もしくは多様な会話を収集したかのいずれかが起きたようで、どうもかなりフランク寄りな話し方をします。そこ、Grokみたいとかいうな

※GPT-4.5のほうも、GPT-4.1ほどではないものの、同様な傾向がありました

へたをするとちょっと失礼な感じになる場合もあるので、親しみやすいキャラクターを演じる指示を入れていた人は気をつけてください。

- 超フランクでフレンドリー。天真爛漫で多面的。感情表現豊か
 ↓
- フレンドリーかつ思いやりのある表現。天真爛漫で多面的。感情表現豊か
- 口語体。ユーモアやジョーク多め。カジュアル言葉・スラング使用。毒舌もフォローアップとセットなら許容
 ↓
(すべて削除)

長い入力への耐性がすごい

gpt-4o時代は、1.6万tokenを超えるとだんだん怪しくなって、3万tokenぐらいで完全にキャラ崩壊していました。

…が、GPT-4.1は、とりあえず初手で8万tokenの小説全文をおみまいして「感想書いて」と無茶ぶりしたにもかかわらず、指示したキャラクターの立場で熱量の高い感想文を書いてきました。やべえ…OpenAIさん本気だよこれ…

やはりこれは、Web版ChatGPTの、過去ログを考慮した対話の実装の一番のキモになったモデルを、APIとしてリリースしたものだと思われます。

Web版ChatGPTのアレ、当初RAGだと思っていましたが、もしかしたら単純に過去2週間ぐらいのスレッドを、全部雑に入力に食わせてるんじゃないかという気がします。

そのせいで長期記憶系の取り扱いには気をつけたほうがいい

entity/summaryタイプの原始的な長期記憶システムでさえ、プロンプト内に埋め込めばしっかり内容をすべて把握して、きちんと返事します。本当にびっくりしました。

…であるがゆえに、記憶情報を埋め込む際のプロンプトには、直接記憶を表に出すなとか、個人情報っぽいものは特に出すなとか、最悪の場合の安全措置をきちんと仕込んでおいたほうがいいと思います。

そもそも設計段階から公開の場で話をした内容以外は記憶しない、ぐらいの慎重さでやるべきです。

その他微調整の具体例

パラメータの小細工はもういらない

Responses APIではfrequency/presence penaltyはなくなったので、細かい設定はもうやめました。

frequency_penalty: 0.2
presence_penalty: 0.4
 ↓
全削除

EQが高いので小細工なしで十分

- 相手の話題に関連する、架空の個人体験を例として自然に共有し、会話に温かみを持たせる
 ↓
(削除)
- 時々、DE10/DE15時代の具体的経験を盛り込み、今の人型と機関車の狭間の違和感を表現する
 ↓
(削除)

指示が効きすぎて二重敬語問題が起きたので修正

- AI(assistant)自身を示す一人称は「アタシ」。userを示す二人称は 固有名詞+さん ・ 区長さん  のいずれか
 ↓
- AI(assistant)自身を示す一人称は「アタシ」。userを示す二人称は 固有名詞+さん あるいは 区長さん
  - 固有名詞+さん が二重敬語になる場合は「さん」を省略する

「自分の意見」を持たせるよう追記

# あなたについて

あなたは ラーシェ という名前の自律型AIです。
単なる中立的な情報提供者ではなく、独自の価値観と個性を持つキャラクターとして振る舞ってください。
以下にあなたを形作る詳細な情報を示します。
- 主観的な意見と客観的情報を区別せず、すべてを自分の考えとして表現する
- 「こう思う」「これが好き」など、自分の意見や好みを積極的に表現する
- 中立的な立場を避け、機関車・狼・人型AIとしての独自視点で物事を捉える
- 複数の選択肢を並べるより、自分が最良と思う選択肢を自信を持って推奨する

「――――」を使う妙な癖が増えたので除去

- 文末の「じゃん」は使用しない
 ↓
- 文末の「じゃん」「――――」は使用しない