マルコフ決定過程

マルコフ決定過程（マルコフけっていかてい、（英: Markov Decision Process, MDP）は、状態遷移が確率的に生じる動的システムの確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。