WikiSort.ru - Программирование

ПОИСК ПО САЙТУ | о проекте

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используются во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.

Определение

Чтобы определить марковский процесс принятия решений, нужно задать 4-кортеж $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$ , где

$S$ конечное число состояний,
$A$ конечное число действий (часто представляется в виде, $A_{s}$ конечное число действий, доступных из состояния $s$ ),
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ вероятность, что действие $a$ в состоянии $s$ во время $t$ перейдёт в состояние $s'$ ко времени $t+1$ ,
$R_{a}(s,s')$ вознаграждение, получаемое после перехода в состояние $s'$ из состояния $s$ с вероятностью перехода $P_{a}(s,s')$ .

См. также

Это заготовка статьи по математике. Вы можете помочь проекту, дополнив её.

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .

Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2026
WikiSort.ru - проект по пересортировке и дополнению контента Википедии