時間差分学習
時間差分学習(じかんさぶんがくしゅう、英: temporal difference learning)やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。 モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。
時間差分学習(じかんさぶんがくしゅう、英: temporal difference learning)やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。 モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。
時間差分学習(じかんさぶんがくしゅう、英: temporal difference learning)やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。 モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。
出典: Wikipedia「時間差分学習」 · CC BY-SA 4.0
この記事を共有: X · Bluesky