Два года назад искусственный интеллект Libratus обыграл в хедз-апе лучших покер-про в мире, выиграв почти $2,000,000. Но теперь у бота появился еще более сильный оппонент — его новая версия, которую разработали ученые из университета Карнеги-Меллона и исследователи искусственного интеллекта Facebook.
Новый бот Pluribus также соревновался против лучших покер-про в мире, но уже не один на один, а за 6-max столом. Против него сыграло 15 профессионалов NLH, но искусственный интеллект оказался сильнее.
Все 15 игроков — профессионалы онлайна и офлайна, как кэш-игр, так и турниров. Каждый из них выиграл более $1,000,000 за карьеру, а некоторые перешагнули отметку в $10,000,000. В этом списке есть игрок «LLinusLLove», которого многие покер-про признают сильнейшим в мире кэш-игроком NLH в 6-max.
Список оппонентов Pluribus:
- Линус «LLinusLLove» Лелигер;
- Крис «Иисус» Фергюсон;
- Грег Мерсон;
- Даррен Элиас;
- Джейсон Лес;
- Майкл Гаглиано;
- Сэт Дэйвис;
- Тревор Севедж;
- Джимми Чау;
- Энтони Грэг;
- Донг Ким;
- Ник Петранжело;
- Шон Руане;
- Джейк Туле;
- Дэниел МакОлей.
Удачный эксперимент
Покерная сессия Pluribus проходила в двух форматах:
- пять покер-про против одного бота ИИ;
- один покер-про против пяти ботов ИИ.
В первом формате бот показал средний винрейт в 5 BB/100 раздач. Покерные профессионалы в среднем теряли 2.3 BB/100 раздач, при этом их индивидуальные результаты варьировались от -0.5 до -4 BB на 100 раздач.
За 10,000 рук все покер-про ушли в минус на $500,000. Игру Pluribus и 5 покерных профессионалов можно оценить в видео.
Во втором формате игроки поодиночке катали 5,000 раздач против 5 ботов, и результаты оказались аналогичными. Ботам не сумел противостоять обладатель 6 браслетов WSOP Крис Фергюсон, а также рекордсмен по количеству титулов WPT Даррен Элиас (4 титула).
Секрет Pluribus
Разработчики кардинально перестроили логику работы и обучения Pluribus по сравнению с «хедз-ап-чемпионом» Libratus. «Стержень» ИИ остался прежним — покеру и покерным стратегиям он обучался самостоятельно, на основе игры с самим собой.
Принцип работы Pluribus на математическом языке можно назвать «минимизацией сожалений». ИИ вычисляет разницу между принятым им решением и оптимальной стратегией действий и стремится к уменьшению этого значения.
Даррен Элиас рассказал, что главным преимуществом бота является умение комбинировать различные стратегии. У покерных профессионалов это редко получается делать, чтобы играть в плюс.
Не суперкомпьютер
Предыдущие высокоуровневые ИИ требовали миллионов долларов на разработку и немалые вычислительные мощности. Facebook и университет Карнеги-Меллона представили затраты на разработку Pluribus, затраты оказались просто смешными.
На программирование бота ушло 8 дней, 512 ГБ оперативной памяти и $150. Деньги потратили исключительно на аренду вычислительного «облака».
Для работы самого сильного покерного бота хватит ПК с 28-ядерным процессором. При этом его скорость принятия решений в 2 раза больше, чем у покер-про — от 1 до 33 секунд. На сессии за 6-max столом Pluribus в среднем тратил 20 секунд на раздачу.
Бот выбирает донк-беты
Pluribus подтвердил одну традиционную покерную мудрость: лимпить не самый лучший ход, по сравнению с фолдом или рейзом на префлопе. Исключением, конечно, является случай, когда игрок находится на SB, и колл стоит вдвое меньше, чем для других игроков.
Еще одно интересное наблюдение — бот делал гораздо больше донк-бетов, чем его оппоненты-люди. Считается, что если префлоп-агрессор продолжает делать несущественную ставку на следующих улицах — это не совсем оптимальное решение. Однако Pluribus посчитал донк-беты плюсовыми решениями.
Будущее бота
Разработчики Pluribus решили не размещать его код в открытый доступ, чтобы он не попал не в те руки. Потому что этот искусственный интеллект действительно опасен для покерного сообщества.
Создатели бота преследуют цель изучить покер настолько глубоко, насколько это возможно, и понять те принципы игры, которые еще не открылись даже самым лучшим игрокам в мире. Бот также может использоваться для выявления покерных мошенников, сговоров и других ботов.
Покерные способности Pluribus ярко выражены в отчете эксперимента с покер-про:
«Если бы каждая фишка стоила $1, Pluribus выигрывал бы в среднем около $5 за раздачу и зарабатывал бы около $1,000 долларов в час, играя против пяти людей. Эти результаты считаются пределом для покерных профессионалов».
Хотите поделиться своим мнением или оставить комментарий?
Написать