DPO 対 RLHF

はダイレクト・プレファレンス・オプティマイゼーションです

はヒューマン・フィードバックからの強化学習です

まず RLHF について説明します

OpenAI の GPT が依存しているのは、新しい大規模言語モデル (Large Language Model, LLM) のトレーニングパラダイムです。それは RLHF (Reinforcement Learning from Human Feedback) と呼ばれます。簡単に言えば、これは人間のフィードバックを用いた強化学習による最適化手法です

これまでは、LLM は主に人の入力プロンプトに基づいて応答を生成していました。その評価は通常主観的であり、文脈に依存していました。従来のモデルは次の単語を予測し、シンプルな損失関数(例:クロスエントロピー)を使用してきましたが、人間の好みや主観的な見解を明確に組み込むことはありませんでした

その後、RLHF(Reinforcement Learning from Human Feedback)が導入されました。この戦略は生成されたテキストに対する人間のフィードバックを評価基準とし、そのフィードバックをモデルの最適化における損失関数として使用します。簡単に言えば、強化学習の手法を使って、人間のフィードバックを考慮した言語モデルを直接最適化するものです。これにより、言語モデルがより複雑な人間の価値観と一致できるようになります。

RLHF は主に3つのステップに分かれています:

  1. 言語モデル (LM) の事前学習を行います。
  2. 質問応答データを集約し、それに基づいて報酬モデル (Reward Model, RM) を学習します。
  3. 強化学習 (RL) を用いて LM を微調整します。

それでは、DPOについてもう少し話しましょう。

RLHFは、人間の好みの概念を導入し、強化学習と大規模言語モデルを統合する方法を提供しましたが、実際の応用ではしばしば複雑で不安定です。その仕組みは、まず報酬モデルを適合させて人間の好みを捉え、その後、無監督学習モデルを微調整してこれらの報酬を最大化する一方で、元のモデルにできるだけ近い状態を維持することです。

これらの問題を解決するために、研究者たちはDPOアルゴリズムを提案しました。DPOは、報酬関数と最適戦略の間のマッピングを直接使用するだけでなく、制約付き報酬最大化問題が単一ステージのポリシー訓練によって完全に最適化可能であることを示しています。本質的に、DPOは人間の好みデータに基づく分類問題に対する解を提供します。

RLHFと比較すると、DPOには多くの利点があります:

  1. より高い安定性と計算効率を持っています。
  2. 報酬モデルのフィッティングやファインチューニング時のサンプリングは必要ありません。
  3. 大量のハイパーパラメータへの依存を減らします。
  4. DPO は、人間の好みに合った言語モデルをより効率的にファインチューニングでき、既存の手法を頻繁に上回ります。
  5. DPO を使用したファインチューニングは、生成結果の感情制御、要約の改善、および一発の対話応答の質向上において優れたパフォーマンスを発揮します。

DPO の詳細な研究論文はこちらをご覧ください https://arxiv.org/abs/2305.18290

ここでは、DPOとRLHF(PPOはRLHFフレームワークに基づく強化学習アルゴリズムの一つ)のパフォーマンス比較を見ることができます:

強化学習は難易度が高く、不安定な方法であり、現時点ではOpenAIとAnthropicのみが成功を収めています。多くのオープンソースモデルはRLHFを採用した後も、顕著な性能向上を達成できていません。しかし、DPOなどの新しい手法の登場により、強化学習が唯一の選択肢ではなくなっています。