🔖

プロンプトなしの CoT 推論方法(新しい論点の紹介)

2024/12/27に公開

LLM は、さまざまな複雑な推論ベンチマークで優れたパフォーマンスを発揮しています。LLM の推論機能は、通常、プロンプト手法によって引き出されます。LLM 推論を引き出すためのもう 1 つの一般的な戦略は、大量の CoT 推論データを使用してモデル トレーニングまたは命令の調整を行うことです。

プロンプト技術は効果的なものですが、タスク固有の事前知識をエンコードすることが多く、言語モデルの本質的な推論能力を評価することが困難になります。理想的には、言語モデルは、人間がプロンプトを微調整したり、最初の応答が不十分な場合に繰り返し改良したりすることなく、独立して推論し、最適な応答を提供できる必要があります。また、モデルの調整にはコストがかかり、大量の教師ありデータが必要になります。

疑問は自然に、「LLM は促されなくても効果的に推論できるか、そしてどの程度まで推論できるか」、という点です。この論文では、「CoT デコード」と呼ばれる CoT 推論機能を引き出すタスクに依存しない方法について説明します。事前トレーニング済みの LLM は、トップ 1 の貪欲なデコーディング パスのみに依存するのではなく、代替のトップ 𝑘 トークンを考慮することで、プロンプトなしで固有の推論を行うことができます。

次の例では、CoT 推論パスが存在する場合、モデルは最終的な回答をデコードする際に高い信頼性を示す傾向があります (濃い色で示されます)。

推論の質問が与えられると、LLM は標準的な貪欲なデコード パスを介して間違った答えを生成しますが、代替のトップ 𝑘 トークン検査により、クエリを正確に解決する固有の CoT パスが明らかになりました。このデコード変更はプロンプトをバイパスし、モデルの調整を必要とされません。

CoT デコード法の徹底的な実験の結果、次のことが明らかになりました。

  • CoT デコードは、言語モデルの推論を効果的に改善する唯一のデコード戦略です。
  • CoT デコードにより、モデルの固有の推論能力をより深く理解できます。
  • CoT デコードは、CoT プロンプトと簡単に組み合わせることができ、複数の言語モデルでさらに大きな推論力の向上をもたらします。

現在の実験では最初のトークンでの分岐に焦点を当てていますが、今後の研究作業では、任意のトークンでの分岐を調査し、デコード フェーズ中に最善のパスを探すことができます。ただし、計算コストは​​大幅に高くなるため、検索中に最適なトークンを確実に特定する方法は、調査する興味深い方向性となります。

論文へのリンク  https://arxiv.org/pdf/2402.10200

Discussion