記事へのコメント3

    • 注目コメント
    • 新着コメント
    swdrsker
    swdrsker 研究者は日進月歩で追いつくだけでも大変そうだ

    2025/01/27 リンク

    その他
    naggg
    naggg 強化学習、やっぱ難しいな・・・。苦手だわ〜

    2025/01/27 リンク

    その他
    shunk031
    shunk031 GRPO完全に理解できる記事見つけてうれし🥰 解説眺めながら動かしてみたい

    2025/01/26 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    LLMチューニングのための強化学習:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコ

    DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimiza...

    ブックマークしたユーザー

    • single_wing2025/01/27 single_wing
    • jp-myk2025/01/27 jp-myk
    • kyopeco2025/01/27 kyopeco
    • tMF2025/01/27 tMF
    • coconoac_127ad2025/01/27 coconoac_127ad
    • swdrsker2025/01/27 swdrsker
    • urtz2025/01/27 urtz
    • sutatin2025/01/27 sutatin
    • shino_azm2025/01/27 shino_azm
    • daabtk2025/01/27 daabtk
    • pokutuna2025/01/27 pokutuna
    • NATTOMAKI2025/01/27 NATTOMAKI
    • makopy_inside2025/01/27 makopy_inside
    • amring2025/01/27 amring
    • tobetchi2025/01/27 tobetchi
    • n_shuyo2025/01/27 n_shuyo
    • taichoo512025/01/27 taichoo51
    • triceratoppo2025/01/27 triceratoppo
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事