|
Казино Вулкан Делюкс10.07.2017Алгоритмы обучения с подкреплением в казино Вулкан Делюкс представляют собой универсальные инструментальные средства поиска отображений между состояниями и действиями. Эти алгоритмы могут применяться для усвоения с помощью обучения стратегий борьбы на выживание путем связывания ситуаций с правильными формами поведения. Со всей этой задачей можно справиться, применяя единственную таблицу, в которой хранятся вероятностные оценки способов действий, указывающие оцениваемую отдачу для каждой пары “состояние-действие”. Эту задачу позволяют успешно решать алгоритмы обучения с подкреплением различных типов. Но если количество состояний и действий велико, возникает важная проблема, связанная с тем, что обучение происходит более медленно. Для поиска подходящего способа действий требуются дополнительные итерации. Поэтому становится выгодным применение принципа разделения задачи на подзадачи с точки зрения потребления памяти и вычислительных ресурсов. Кроме того, обеспечивается возможность применения параллельного обучения с подкреплением, а это означает, что можно рассматривать несколько действий одновременно. А все алгоритмы позволяют выбирать и соответственно распределять вознаграждение только применительно к одному действию. В настоящее время одной из актуальных задач в исследованиях обучения с подкреплением является осуществление нескольких параллельных действий и распределение вознаграждения. Чтобы исключить необходимость решать эту проблему и применять тактику, состоящую из многочисленных компонентов, в системе необходимо использовать предусмотренные по умолчанию формы поведения, которые вызываются по мере необходимости алгоритмом обучения с подкреплением.
|