Разработчики Facebook создали общую структуру нового искусственного интеллекта, который обещает стать лучшей программой, играющей в Холдем. Этот покерный ИИ превзошел знаменитого покерного бота Libratus, обыгравшего команду покер-про в 2017 году.
Искусственный интеллект от Facebook получил название ReBeL, что расшифровывается как рекурсивное обучение на основе убеждений. В его инфраструктуре реализованы новые концепции, которые позволили ему лучше справляться с информационными аспектами покера.
Самообучение машин
За последние годы системы ИИ показали невероятную способность взламывать различные сложные игры.
Программа AlphaZero DeepMind смогла обучиться шахматам, сёги (японским шахматам) и принципам го, используя только основные правила каждой игры, после чего достигала высот во всех трех играх за считанные часы. Libratus также использовал самостоятельную игру, чтобы научиться играть в хедз-ап NLH.
И ReBeL делает то же самое, однако он учитывает не только информацию о видимом состоянии игры (карты, размеры ставок, диапазон рук оппонента), но и мнение каждого игрока о состоянии, в котором он находится. Это можно сравнить с тем, как человек оценивает, считает ли его оппонент, что он впереди или позади в конкретной раздаче.
Принцип работы ReBeL
В ReBeL самообучаются две разные модели ИИ: сеть вэлью и сеть политики. Затем ИИ оперирует тем, что исследователи называют общественными убеждениями (PBS).
В идеальной информационной игре, такой как шахматы, достаточно просто оценивать игровое состояние, чтобы принимать идеальные решения. Тем не менее PBS учитывает как состояние игры, так и такие факторы, как политика обоих игроков, чтобы составить полную модель вероятностей всех возможных действий, которые может совершить игрок, и того, какие у них будут последствия.
По мнению исследователей, благодаря такому подходу ReBel преуспел в играх с неполной информацией. Команда Facebook провела эксперименты, в ходе которых ReBel сыграл против двух игроков в Holdem, кости лжеца и Holdem Endgame — упрощенную версию игры без рейзов в первых двух раундах ставок.
ReBeL превзошел Libratus
В эксперименте с Холдемом ReBel сыграл против специалиста по хедз-апам Донгом Кимом. ИИ победил покер-про, выигрывая по 0.165 BB в каждой из 7,500 раздач.
Это на 0.147 BB больше, чем сумел выигрывать Libratus против 4 покер-про в 2017 году. Конкретно у Донга Кима он выиграл 0.029 BB за каждую раздачу.
Исследователи Facebook приняли меры предосторожности против того, чтобы онлайн-игроки не встретились с ботом на базе ReBeL за столами:
«Самым непосредственным риском, связанным с этим проектом, является вероятность мошенничества в развлекательных играх, таких как покер, — пишет команда в своей статье. — Отчасти по этой причине мы решили не выпускать код для покера».
Разработчики полагают, что ReBeL может помочь в разработке более эффективных алгоритмов нахождения общего равновесия в приложениях для аукционов, переговорах, кибербезопасности и транспортных средствах с самостоятельным вождением.
Хотите поделиться своим мнением или оставить комментарий?
Написать