Насколько опасен искусственный интеллект в покере: разбираем успехи Cepheus, Libratus и Pluribus

Насколько опасен искусственный интеллект в покере разбираем успехи Cepheus, Libratus и Pluribus

За последние двадцать лет искусственный интеллект (ИИ) сделал огромный рывок вперед. Ни один человек уже не способен тягаться с машиной в шахматы. Но покер отличается от шахмат. Если в шахматах ситуация на доске как на ладони, то в покере неизвестно, какие карты у соперника на руках.

Создание ИИ, который смог бы решать задачи, не обладая полнотой данных, стало для ученых настоящим крестовым походом.

Эволюция покерных программ

Первая покерная программа появилась в 1984 году на WSOP. Уже тогда она учитывала скорость принятия решений человеком. И если оппонент размышлял слишком долго, программа склонялась к тому, что он блефует. Стоит ли говорить, что сильные игроки сразу подметили эту особенность и нещадно ее эксплуатировали.

В 1997 году группа ученых из университета Альберты разработала покерного бота Loki. Сперва планировалось создать программу для игры на 9-макс столах, но в ходе тестов ученые осознали, что на тот момент это невозможно. Loki переделали под формат хедз-ап. Но бот все равно сильно уступал профессиональным игрокам.

Первый настоящий прорыв произошел в 2015 году, когда в университете Альберты представили покерного бота Cepheus, заточенного для игры в лимитный Холдем. Математически бот играл практически безупречно, поэтому с легкостью обыгрывал людей, которые допускали ошибки.

Стример тестирует бота Cepheus на сайте университета Альберты
Стример тестирует бота Cepheus на сайте университета Альберты

Но создать программу, способную обыграть профи в безлимитный Холдем, оказалось куда более сложной задачей. За ее решение взялась группа ученых из университета Карнеги-Меллона. В том же 2015 году они представили покерного бота Claudico. Проверить его эффективность вызвалась команда профессионалов, которую возглавил известный игрок хайстейкс Даг Полк. Программа превосходила предыдущих NL-ботов. Но итог оказался не в ее пользу — игроки в итоге одержали победу и получили профит более $700 тыс.

Libratus: первая победа ИИ против профессионалов 

Несмотря на поражение, ученые из Карнеги-Меллона сдаваться не собирались. Долгие месяцы они бились над тем, чтобы доработать свою программу. Новая версия вышла в январе 2017 года и получила название Libratus.

Ученые изменили подход бота к игре. Если раньше покерные программы группировали схожие ситуации по ряду признаков, что снижало требования к ресурсам, Libratus рассматривал каждую руку, как уникальную. И выстраивал собственные стратегии.

В матче-реванше игра шла с глубиной стеков 200 бб, и каждый из четырех про-игроков сыграл против ИИ по 30 тыс. раздач. Итогом стала полная победа Libratus над людьми. В среднем бот имел внушительный винрейт в 14,7 bb/100, а его профит за матч составил более $1.7 млн.

Топовый рег Даг Полк против ИИ
Топовый рег Даг Полк против ИИ

Большое значение в игре бота имела рандомизация действий и вариативность ставок. Он часто пользовался крупными овербетами, и оппонентам было трудно понять — блефует машина или разыгрывает так премиум руки. Бот ставил огромные ставки в обеих случаях.

Самая спорная раздача в этом матче:

Префлоп: МакАулей — префлоп рейз в позиции, Libratus — 3-бет с 53s, МакАулей — 4-бет, и машина сделала колл. Это уже является странным решением — большинство игроков выкинут такую слабую руку на 4-бет, тем более без позиции.

Флоп: KQJ, две червы. У МакАулея флеш-дро. Оба соперника — чек. 

Терн: пришла еще одна черва. Даниэль снова прочекал вслед за ботом, пытаясь скрыть силу своей руки. 

Ривер: пришла пятерка. Бот сделал ставку, получил минрейз и… пошел в олл-ин. Даниэль сделал легкий кол с флешем и выиграл эту раздачу.

Работа Libratus требовала значительных мощностей. Все расчеты проводились в Питтсбургском центре суперкомпьютеров на машине с 274 Терабайтами оперативной памяти и мощностью в десятки тысяч раз превышающей домашний ПК.

С игрой один на один ИИ справился, но наличие за столом дополнительных игроков увеличивало сложность вычислений в разы. Поэтому многие скептически отнеслись к заявлениям, что Libratus способен побить 6-макс. Доказать, что скептики не правы, вызвались Туомас Сандхольм из лаборатории Facebook и его коллега Ноам Браун. 

Новый ИИ: от фиша до топ-рега 6-макс за 20 часов

Если предыдущий бот изменил подход к игре, программа Pluribus, созданная двумя учеными, изменила подход к обучению. В нее больше не закладывали никаких алгоритмов и стратегий, только базовые правила покера. Затем бот начинал раз за разом играть против собственных копий, быстро усваивая ошибки и выделяя решения, которые приводили к выигрышу.

Туомас Сандхольм и Ноам Браун - создатели Pluribus
Туомас Сандхольм и Ноам Браун — создатели Pluribus

Такой подход уже использовался ранее. Именно так работали ИИ от подразделения Google DeepMind. Программа AlphaGo, основанная на принципе самообучения, в пух и прах разгромила чемпиона мира по игре Го, а ее шахматный собрат AlphaZero с легкостью расправился с гроссмейстерами и сильнейшими шахматными программами, основанными на заложенных алгоритмах.

Самообучаемый ИИ прогрессировал с невероятной скоростью. Чтобы достичь уровня среднего покерного игрока, Pluribus понадобилось семь часов. Через 20 часов он играл уже на уровне топ-рега. А через 60 — практически не допускал ошибок.

Важным преимуществом Pluribus стало то, что для его работы не требовалось оборудование стоимостью миллионы долларов. Программа находилась на облачном сервере, стоимость аренды которого составила $150. И запускать ее можно было на обычном ПК.

Проверить, так ли хорош новый покерный ИИ, пригласили 15 профессионалов, у каждого из которых за плечами были семизначные выигрыши. Возглавлял команду Линус “LLinusLLove” Лелигер, которого многие считают лучшим на сегодняшний день кэш-игроком NLH 6-макс.

Пятеро на одного: противостояние в 6-max

Соревнование проходило в два этапа. Сначала за 6-макс столом пятеро про-игроков играли против Pluribus. Затем пять копий бота играли против человека. И в начале каждой раздачи у всех участников было по 100 bb.

Pluribus сразу же поставил в тупик профессионалов нестандартными решениями. Например, он часто делал донк-беты в ситуациях, где это считается убыточным, постоянно варьировал бет-сайзинги и ставил овербеты, которые превышали банк в несколько раз. Все профи отметили, что ИИ очень хорошо менял стратегию и почти никогда не действовал по шаблону.

Нестандартный овербет олл-ин от Pluribus
Нестандартный овербет олл-ин от Pluribus

Участники матча сыграли по 20 тыс. раздач. Pluribus закончил встречу с профитом 5 bb/100. Лучший результат из людей показал капитан команды LLinusLLove, но даже он ушел в минус: -0,5 bb/100.

После матча у игроков спросили, каково им было играть против самого продвинутого покерного бота. Все они согласились, что Pluribus оказался очень сильным соперником.

Крис Фергюсон

«Чрезвычайно сложно положить его на какую-то руку. Он очень хорош в тонких велью-бетах и извлекает по максимуму велью из своих сильных рук»,Крис Фергюсон.

Джимми Чоу

«В игре против бота я постоянно находил что-то новое, что хотел внедрить в свою игру. Мы, люди, стараемся упростить для себя покер. Выбираем стратегии, которые нам понятнее и проще запомнить. Но ИИ не ищет легких путей. У него сложные, сбалансированные стратегии в каждой раздаче»,Джимми Чоу.

Сэт Девис

«Самым интересным в игре против Pluribus было пытаться подстроиться под его сложные префлоп-стратегии. Бот постоянно варьирует размеры префлоп-рейзов. Что очень непривычно, если сравнивать с игрой против живых соперников»,Сэт Девис.

Джейсон Лес

«Pluribus блефует намного лучше большинства регов. Он просто мастер в этом. Вот что делает игру против него такой сложной. Бот постоянно оказывает на тебя давление, агрессивно ставит, и ты понимаешь — в любой из таких ситуаций он может блефовать»,Джейсон Лес.

Реакция покерного мира на победу ИИ оказалась неоднозначной. Некоторых удивил странный выбор соперников для бота. Большинство участников были турнирными игроками, а не специалистами в 6-макс кэш. Также результат был опубликован без учета рейка. Если добавить стандартный для румов рейк, Pluribus, в лучшем случае, сыграл в ноль.

Многие выразили тревогу, что боты, подобные Pluribus, теперь заполонят столы покер-румов и онлайн-покеру наступит конец. Ведь если бот переигрывает топовых профи, что против него могут противопоставить рекреационные игроки? Им и так проблем хватает играть с теми, кто пользуется программами-подсказчиками.

Сандхольм и Браун заверили, что не собираются делать свое творение общедоступным. Pluribus — экспериментальный проект для тестирования возможностей ИИ при работе с неполной информацией. Авторы хотят адаптировать бота под другие задачи, никак не связанные с покером, и уже подписали контракт на $10 млн с Министерством обороны США.

Впрочем, в покере для Pluribus тоже может найтись применение… для борьбы с другими ботами. Если ИИ научился определять диапазоны рук оппонентов, вероятно, подобный алгоритм смог бы так же эффективно отличать машину от живого игрока.

Оставить комментарий