先来看看维基百科的解释:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。
即 t+2 时刻的状态只与 t+1 时刻的状态有关,与 t 时刻的状态无关。
马尔科夫决策过程(Markov Decision Process,MDP)提供了一套数学框架,即在结果部分随机,且部分受决策者控制的情况下对决策过程建模。
MDP可以由一个五元组表示 { S , A , {Psa} , γ , R }
上一篇:今年广东高考难度系数预测点评,最新或2023(历届)广东高考难不难 近年广东高考难度对照表 2019年广东省高考难度系数
下一篇:今年山东高考难度系数预测点评,最新或2023(历届)山东高考难不难 2019山东高考总体难度 山东高考历年难度系数排行榜