Facebook разработал ReBeL — новый покерный ИИ, который превосходит Libratus

Разработчики Facebook создали общую структуру нового искусственного интеллекта, который обещает стать лучшей программой, играющей в Холдем. Этот покерный ИИ превзошел знаменитого покерного бота Libratus, обыгравшего команду покер-про в 2017 году.

Содержание:

Самообучение машин
Принцип работы ReBeL
ReBeL превзошел Libratus

Искусственный интеллект от Facebook получил название ReBeL, что расшифровывается как рекурсивное обучение на основе убеждений. В его инфраструктуре реализованы новые концепции, которые позволили ему лучше справляться с информационными аспектами покера.

Самообучение машин

За последние годы системы ИИ показали невероятную способность взламывать различные сложные игры.

Программа AlphaZero DeepMind смогла обучиться шахматам, сёги (японским шахматам) и принципам го, используя только основные правила каждой игры, после чего достигала высот во всех трех играх за считанные часы. Libratus также использовал самостоятельную игру, чтобы научиться играть в хедз-ап NLH.

И ReBeL делает то же самое, однако он учитывает не только информацию о видимом состоянии игры (карты, размеры ставок, диапазон рук оппонента), но и мнение каждого игрока о состоянии, в котором он находится. Это можно сравнить с тем, как человек оценивает, считает ли его оппонент, что он впереди или позади в конкретной раздаче.

Принцип работы ReBeL

В ReBeL самообучаются две разные модели ИИ: сеть вэлью и сеть политики. Затем ИИ оперирует тем, что исследователи называют общественными убеждениями (PBS).

В идеальной информационной игре, такой как шахматы, достаточно просто оценивать игровое состояние, чтобы принимать идеальные решения. Тем не менее PBS учитывает как состояние игры, так и такие факторы, как политика обоих игроков, чтобы составить полную модель вероятностей всех возможных действий, которые может совершить игрок, и того, какие у них будут последствия.

По мнению исследователей, благодаря такому подходу ReBel преуспел в играх с неполной информацией. Команда Facebook провела эксперименты, в ходе которых ReBel сыграл против двух игроков в Holdem, кости лжеца и Holdem Endgame — упрощенную версию игры без рейзов в первых двух раундах ставок.

ReBeL превзошел Libratus

В эксперименте с Холдемом ReBel сыграл против специалиста по хедз-апам Донгом Кимом. ИИ победил покер-про, выигрывая по 0.165 BB в каждой из 7,500 раздач.

Это на 0.147 BB больше, чем сумел выигрывать Libratus против 4 покер-про в 2017 году. Конкретно у Донга Кима он выиграл 0.029 BB за каждую раздачу.

Исследователи Facebook приняли меры предосторожности против того, чтобы онлайн-игроки не встретились с ботом на базе ReBeL за столами:

«Самым непосредственным риском, связанным с этим проектом, является вероятность мошенничества в развлекательных играх, таких как покер, — пишет команда в своей статье. — Отчасти по этой причине мы решили не выпускать код для покера».

Разработчики полагают, что ReBeL может помочь в разработке более эффективных алгоритмов нахождения общего равновесия в приложениях для аукционов, переговорах, кибербезопасности и транспортных средствах с самостоятельным вождением.

30 июля 2020

1616

Материал подготовлен

Автор с большим опытом игры на низких и средних лимитах. Пишет о базовой стратегии, банкролл-менеджменте, покерной математике и психологии. Его статьи ориентированы на тех, кто выстраивает прочную основу для долгосрочного роста.