7月3日、InfoQが「Fine Tuning the Enterprise: Reinforcement Learning in Practice」と題した記事を公開した。「将来、経済的に意味のある仕事をこなすエージェントはほぼ確実に推論モデルで動く」——OpenAIのエンジニアがこう断言するほど、エージェント開発の重心はすでに推論モデルへと移りつつある。プロンプト調整やツール設計を尽くしてもなお埋まらない性能ギャップを、強化学習でどう乗り越えるか。本記事はその実践的な手法を詳しく紹介している。
Agent RFTとは何か
OpenAIのファインチューニングチームに所属するWill HangとWenjie Ziによる発表だ。テーマは、エージェント向けの強化学習ファインチューニング(Agent RFT: Agent Reinforcement Fine-Tuning)である。
通常のファインチューニングといえば、教師あり学習(Supervised Fine-Tuning, SFT)が長年の主流だった。SFTはモデルに「正解トークン」を直接教え込む手法で、分類・要約・翻訳・スタイル統一といったタスクには非常に効果的だ。たとえばS-1やForm 10-Kといった財務文書の要約モデルを作る場合、SFTによって「売上高」「営業利益率」といった必須情報に注意を向けるパターンをモデルに学習させられる。
しかしSFTには限界がある。入力から出力までに複雑な多段階の推論が必要なタスクや、多様な未知の入力に柔軟に対応しなければならないタスクには向かない。
そこで登場したのが推論モデル(Reasoning Model)と、その訓練に使われる強化学習(RL)だ。推論モデルはプロンプトに対して即座に答えを返すのではなく、コンテキストウィンドウをメモ帳として使いながら自分で考えてから回答を出す。OpenAIはこの推論モデルを任意のドメイン向けにファインチューニングできるRFTプラットフォームを2025年5月に公開した(※本発表での言及に基づく。公式リリース情報はOpenAI Platform ドキュメントも参照されたい)。
強化学習が「エージェント」に必要な理由
強化学習の核心は報酬(reward)とクレジットアサインメント(credit assignment)の2点にある。
報酬はモデルが問題をどれだけうまく解けたかを示すスコアだ。SFTでは「正解トークンを出力せよ」と直接強制するが、RLではモデルに何度も問題を解かせ、うまくいった軌跡とそうでない軌跡を収集し、成功につながったトークンの出力確率を上げる。「どう考えるかを強制する」のではなく、「どう考えればうまくいくかを自分で学ばせる」わけだ。
クレジットアサインメントとは、軌跡全体を通じてどのトークンが最終的な報酬に貢献したかを学習するプロセスだ。たとえば10ステップの推論の末に正解に辿り着いた場合、どのステップが結果に効いたのかをモデルが事後的に学ぶ——これがクレジットアサインメントである。強化学習未経験の読者には「功績の割り当て」と理解すると直感的だ。エージェントの場合、ツール呼び出しも推論トークンもすべて同じコンテキストウィンドウ上のトークンとして扱われる。どのツール呼び出しが、あるいはどの推論ステップが良い結果につながったかをモデルが理解できるようになると、エージェントとしての一貫した行動品質が上がる。
通常のRFTプラットフォームでも推論能力の強化はできるが、エージェントが外部ツールを呼び出しながら探索するプロセスには対応していない。Agent RFTはまさにそのギャップを埋めるものだ。
Agent RFTの仕組みと実装
Agent RFTの特徴を整理すると以下の通りだ。
- ロールアウト中にツール呼び出しが可能:探索フェーズで実際にツールを使いながら学習できる
- 任意の報酬関数を指定可能:ビジネス要件に合わせた評価基準を自由に設定できる
- o4-miniをベースモデルとして利用:現在のファインチューニングAPIで対象となるモデル
RFTが実際に適用されたユースケースとして、税務・会計、遺伝学、コーディングが挙げられている。これらに共通するのは、「入力から出力へ単純なパターンマッチングでは届かない」複雑な推論が必要な点だ。
報酬設計の具体例として、法律調査エージェントのケースが示されている。引用判例の関連性・正確性、および調査プロセスで導き出した結論の品質を報酬として与えることで、エージェントが法律調査タスクにおける望ましい行動を自律的に学習できる。
エンジニアとして押さえておくべき点
発表では「将来、経済的に意味のある仕事をこなすエージェントはほぼ確実に推論モデルで動く」と明言されている。SFTからRFT、そしてAgent RFTへという流れは、エージェント開発の標準的なアプローチが変わりつつあることを示している。
エージェントのパフォーマンスを改善する手順として、発表では次の優先順位が示されている。
- プロンプト最適化(エージェントプロンプトの調整)
- ツールの追加・削除・説明文の改善
- ツール自体の品質向上
- 上記を試してもまだ改善余地がある場合にファインチューニング(RFT)
Agent RFTはあくまで「最後の一押し」として位置づけられており、まずプロンプトとツール設計を固めることが前提となる。強化学習ファインチューニングの基礎についてはOpenAIのRFT公式ドキュメントも合わせて参照すると理解が深まるだろう。
詳細はFine Tuning the Enterprise: Reinforcement Learning in Practiceを参照していただきたい。