2023-10-01から1ヶ月間の記事一覧
何の記事か 最近、HuggingFaceの強化学習チュートリアルをみてたんですよ。 で、PPOのこの最後の目的関数の意味がわからなかったんですよね。 これ。 (1) 各項は「クリップされた代理方策目的関数 - 価値関数の目的関数 + エントロピーボーナス」となってい…
何の記事か 最近、HuggingFaceの強化学習チュートリアルをみてたんですよ。 で、PPOのこの最後の目的関数の意味がわからなかったんですよね。 これ。 (1) 各項は「クリップされた代理方策目的関数 - 価値関数の目的関数 + エントロピーボーナス」となってい…