Покерный бот Pluribus обыграл 15 мировых покер-про в 6-max NLH

Два года назад искусственный интеллект Libratus обыграл в хедз-апе лучших покер-про в мире, выиграв почти $2,000,000. Но теперь у бота появился еще более сильный оппонент — его новая версия, которую разработали ученые из университета Карнеги-Меллона и исследователи искусственного интеллекта Facebook.

Новый бот Pluribus также соревновался против лучших покер-про в мире, но уже не один на один, а за 6-max столом. Против него сыграло 15 профессионалов NLH, но искусственный интеллект оказался сильнее.

Все 15 игроков — профессионалы онлайна и офлайна, как кэш-игр, так и турниров. Каждый из них выиграл более $1,000,000 за карьеру, а некоторые перешагнули отметку в $10,000,000. В этом списке есть игрок «LLinusLLove», которого многие покер-про признают сильнейшим в мире кэш-игроком NLH в 6-max. 

Список оппонентов Pluribus:

  • Линус «LLinusLLove» Лелигер;
  • Крис «Иисус» Фергюсон;
  • Грег Мерсон;
  • Даррен Элиас;
  • Джейсон Лес;
  • Майкл Гаглиано;
  • Сэт Дэйвис;
  • Тревор Севедж;
  • Джимми Чау;
  • Энтони Грэг;
  • Донг Ким;
  • Ник Петранжело;
  • Шон Руане; 
  • Джейк Туле; 
  • Дэниел МакОлей.

Удачный эксперимент

Покерная сессия Pluribus проходила в двух форматах: 

  • пять покер-про против одного бота ИИ;
  • один покер-про против пяти ботов ИИ.

В первом формате бот показал средний винрейт в 5 BB/100 раздач. Покерные профессионалы в среднем теряли 2.3 BB/100 раздач, при этом их индивидуальные результаты варьировались от -0.5 до -4 BB на 100 раздач. 

За 10,000 рук все покер-про ушли в минус на $500,000. Игру Pluribus и 5 покерных профессионалов можно оценить в видео:

Во втором формате игроки поодиночке катали 5,000 раздач против 5 ботов, и результаты оказались аналогичными. Ботам не сумел противостоять обладатель 6 браслетов WSOP Крис Фергюсон, а также рекордсмен по количеству титулов WPT Даррен Элиас (4 титула).

Секрет Pluribus

Разработчики кардинально перестроили логику работы и обучения Pluribus по сравнению с «хедз-ап-чемпионом» Libratus. «Стержень» ИИ остался прежним — покеру и покерным стратегиям он обучался самостоятельно, на основе игры с самим собой.

Принцип работы Pluribus на математическом языке можно назвать «минимизацией сожалений». ИИ вычисляет разницу между принятым им решением и оптимальной стратегией действий и стремится к уменьшению этого значения.

Даррен Элиас рассказал, что главным преимуществом бота является умение комбинировать различные стратегии. У покерных профессионалов это редко получается делать, чтобы играть в плюс.

Не суперкомпьютер

Предыдущие высокоуровневые ИИ требовали миллионов долларов на разработку и немалые вычислительные мощности. Facebook и университет Карнеги-Меллона представили затраты на разработку Pluribus, затраты оказались просто смешными.

На программирование бота ушло 8 дней, 512 ГБ оперативной памяти и $150. Деньги потратили исключительно на аренду вычислительного «облака». 

Для работы самого сильного покерного бота хватит ПК с 28-ядерным процессором. При этом его скорость принятия решений в 2 раза больше, чем у покер-про — от 1 до 33 секунд. На сессии за 6-max столом Pluribus в среднем тратил 20 секунд на раздачу.

Бот выбирает донк-беты

Pluribus подтвердил одну традиционную покерную мудрость: лимпить не самый лучший ход, по сравнению с фолдом или рейзом на префлопе. Исключением, конечно, является случай, когда игрок находится на SB, и колл стоит вдвое меньше, чем для других игроков. 

Еще одно интересное наблюдение — бот делал гораздо больше донк-бетов, чем его оппоненты-люди. Считается, что если префлоп-агрессор продолжает делать несущественную ставку на следующих улицах — это не совсем оптимальное решение. Однако Pluribus посчитал донк-беты плюсовыми решениями.

Будущее бота

Разработчики Pluribus решили не размещать его код в открытый доступ, чтобы он не попал не в те руки. Потому что этот искусственный интеллект действительно опасен для покерного сообщества.

Создатели бота преследуют цель изучить покер настолько глубоко, насколько это возможно, и понять те принципы игры, которые еще не открылись даже самым лучшим игрокам в мире. Бот также может использоваться для выявления покерных мошенников, сговоров и других ботов.

Покерные способности Pluribus ярко выражены в отчете эксперимента с покер-про:

«Если бы каждая фишка стоила $1, Pluribus выигрывал бы в среднем около $5 за раздачу и зарабатывал бы около $1,000 долларов в час, играя против пяти людей. Эти результаты считаются пределом для покерных профессионалов».

Оставить комментарий