LLMチューニングのための強化学習：GRPO（Group Relative Policy Optimization） - どこから見てもメンダコ

テクノロジーカテゴリーの変更を依頼記事元:

horomary.hatenablog.com

97 usersがブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

swdrsker 研究者は日進月歩で追いつくだけでも大変そうだ

2025/01/27 リンク

naggg 強化学習、やっぱ難しいな・・・。苦手だわ〜

AI

2025/01/27 リンク

shunk031 GRPO完全に理解できる記事見つけてうれし🥰 解説眺めながら動かしてみたい

2025/01/26 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

LLMチューニングのための強化学習：GRPO（Group Relative Policy Optimization） - どこから見てもメンダコ

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimiza... DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法前提手法：TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分：①アドバンテージ算出と②参照モデルからのKL距離制約変更点①：アドバンテージAの算出方法 REINFORCE：価値関数近似なし方策勾配法 PPO（Actor-Critic）：価値関数近似あり方策勾配法 GRPO：スケーリングされたREINFORCE 変更点 ②：参照モデル（SFTモデル）からのKL距離制約従来は参照モデル制約は

ブックマークしたユーザー

single_wing2025/01/27
jp-myk2025/01/27
kyopeco2025/01/27
tMF2025/01/27
coconoac_127ad2025/01/27
swdrsker2025/01/27
urtz2025/01/27
sutatin2025/01/27
shino_azm2025/01/27
daabtk2025/01/27
pokutuna2025/01/27
NATTOMAKI2025/01/27
makopy_inside2025/01/27
amring2025/01/27
tobetchi2025/01/27
n_shuyo2025/01/27
taichoo512025/01/27
triceratoppo2025/01/27

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx