Facebook разработал ReBeL – новый покерный ИИ, который превосходит Libratus

Разработчики Facebook создали общую структуру нового искусственного интеллекта, который обещает стать лучшей программой, играющей в Холдем. Этот покерный ИИ превзошел знаменитого покерного бота Libratus, обыгравшего команду покер-про в 2017 году.

Искусственный интеллект от Facebook получил название ReBeL, что расшифровывается как рекурсивное обучение на основе убеждений. В его инфраструктуре реализованы новые концепции, которые позволили ему лучше справляться с информационными аспектами покера.

Самообучение машин

За последние годы системы ИИ показали невероятную способность взламывать различные сложные игры. 

Программа AlphaZero DeepMind смогла обучиться шахматам, сёги (японским шахматам) и принципам го, используя только основные правила каждой игры, после чего достигала высот во всех трех играх за считанные часы. Libratus также использовал самостоятельную игру, чтобы научиться играть в хедз-ап NLH. 

И ReBeL делает то же самое, однако он учитывает не только информацию о видимом состоянии игры (карты, размеры ставок, диапазон рук оппонента), но и мнение каждого игрока о состоянии, в котором он находится.  Это можно сравнить с тем, как человек оценивает, считает ли его оппонент, что он впереди или позади в конкретной раздаче.

Принцип работы ReBeL

В ReBeL самообучаются две разные модели ИИ: сеть вэлью и сеть политики. Затем ИИ оперирует тем, что исследователи называют общественными убеждениями (PBS).

В идеальной информационной игре, такой как шахматы, достаточно просто оценивать игровое состояние, чтобы принимать идеальные решения. Тем не менее PBS учитывает как состояние игры, так и такие факторы, как политика обоих игроков, чтобы составить полную модель вероятностей всех возможных действий, которые может совершить игрок, и того, какие у них будут последствия.

По мнению исследователей, благодаря такому подходу ReBel преуспел в играх с неполной информацией. Команда Facebook провела эксперименты, в ходе которых ReBel сыграл против двух игроков в Holdem, кости лжеца и Holdem Endgame – упрощенную версию игры без рейзов в первых двух раундах ставок.

ReBeL превзошел Libratus 

В эксперименте с Холдемом ReBel сыграл против специалиста по хедз-апам Донгом Кимом. ИИ победил покер-про, выигрывая по 0.165 BB в каждой из 7,500 раздач. 

Это на 0.147 BB больше, чем сумел выигрывать Libratus против 4 покер-про в 2017 году. Конкретно у Донга Кима он выиграл 0.029 BB за каждую раздачу.

Исследователи Facebook  приняли меры предосторожности против того, чтобы онлайн-игроки не встретились с ботом на базе ReBeL за столами:

“Самым непосредственным риском, связанным с этим проектом, является вероятность мошенничества в развлекательных играх, таких как покер, – пишет команда в своей статье. – Отчасти по этой причине мы решили не выпускать код для покера”.

Разработчики полагают, что ReBeL может помочь в разработке более эффективных алгоритмов нахождения общего равновесия в приложениях для аукционов, переговорах, кибербезопасности и транспортных средствах с самостоятельным вождением. 

Оставить комментарий