Брайан Пеллегрино: человек, готовивший Дага Полка и создавший самый эффективный солвер

Брайан Пеллегрино

В ранние годы покерного бума Брайан Пеллегрино был одним из лучших в мире специалистов по HU SnG. Играл онлайн под псевдонимом PrimordialAA. Ради покера он оставил колледж и заработал на хай-стейкс семизначную сумму.

В 2015-м игрок взял долгий перерыв. Путешествовал по миру с супругой и сыном, далее погрузился в IT и создал алгоритм машинного обучения, который продал Главной бейсбольной лиге. Позже Брайан основал криптовалютный бизнес в Кремниевой долине.

$200 в месяц по промокоду POKERRU

Игроки, которые вводят промокод при регистрации на GGPokerOK, получают ДОСТУП НА ПРИВАТНЫЙ ТУРНИР с призовым фондом $50 и $11 БЕЗДЕПОЗИТНЫЙ БОНУС

Инструкция: Как получить билет при регистрации?

А в 2020-м пути игрока с покером снова пересеклись. Пеллегрино не только принял участие в создании самого мощного GTO-солвера, но и вошел в команду Дага Полка, которая готовила его к противостоянию с Негреану. В интервью журналу Card Player Брайан рассказал, как концепты солверов можно использовать для решения мировых проблем и как благодаря усилиям десятка людей Полку удалось выиграть $1.2 млн.

Даг сразу к тебе обратился. Вы раньше с ним пересекались? Как он вообще на тебя вышел?

Мы оба играли хедз-апы. Он специализировался на кэше, а я на SnG. Потом я решил взять уроки у Даниэля Jungleman Кейтса. Тоже попробовал свои силы в кэш, однако так и не стал играть в него регулярно.

Даг связался со мной и спросил, вовлечен ли я еще в покер. Думаю, он искал разностороннее мнение о том, какие обучающие материалы лучше всего подойдут для подготовки к матчу. Даг — самый усердный человек из всех, кто мне встречался. Я в покере 15 лет и не думаю, что видел кого-то, кто работал над своей тактикой больше, чем он.

Фото Полка и Пеллегрино
Два специалиста по хедз-апу —- Брайан Пеллегрино и Даг Полк

Он также знаком с Ноамом Брауном из Facebook AI, с которым мы в соавторстве опубликовали академическую статью. Это материал о том, как искусственный интеллект способен выработать безупречную стратегию для покера и как концепты можно использовать для решения актуальных проблем в мире.

Даг и его команда раньше сражались против покерных ботов Claudico и Libratus. Я рассказал ему о нашей совместной Ноамом работе, о том, что результаты оказались феноменальными. И Даг стал искать способы использовать это в качестве обучающего материала.

В основе вашей академической статьи лежит так называемая «контрфактуальная минимизация сожалений» (КМС). Что это такое? И какое отношение имеет к покеру?

Раньше люди старались максимизировать свой профит. Более эффективный подход — пытаться минимизировать сожаления.

Допустим, хочу сыграть в «Камень, ножницы, бумага». Я три раза выбрасываю камень и терплю поражение. Теперь вместо того, чтобы кидать его регулярно, буду делать это реже, основываясь на своих прошлых неудачах. Проверните такое триллион раз и вы получите GTO-стратегию игры «Камень, ножницы, бумага».

Описанный метод подходит и для покера, однако вместо трех простых опций тут большое разветвленное дерево со всеми бет-сайзингами и доступными решениями на каждой улице. А цель все та же — минимизировать сожаления.

Если проработать варианты достаточное количество раз, вы придете к GTO — стратегии, при которой никогда не будете сокрушаться. Соперник просто ничего не сможет сделать, чтобы возникло это чувство. Вас будет нельзя эксплуатировать.

Фото финала WSOP
Брайан в хедз-апе турнира серии WSOP

А расскажи о покерном боте, который вы создали совместно с Facebook AI.

Два очень престижных университета разработали основу алгоритмов покерного ИИ. Мы же добавили вариативности. Наша версия была в 5,000 раз быстрее предыдущих топовых алгоритмов вроде DeepStack. Мы выставили своего бота против действующего чемпиона ежегодного турнира среди покерных ИИ Slumbot-а. Наш алгоритм побил его с профитом 20 ББ на 100 рук. Он просто разнес его в пух и прах.

Я ведь даже колледж не закончил. Факт того, что мне удалось опубликовать академическую статью вместе с командой Facebook AI, означает, что мы достигли чего-то впечатляющего. Она вышла как раз тогда, когда Даг начал готовиться к матчу с Даниэлем Негреану.

Как ему удалось заманить тебя в команду?

Нам стало сложно измерять эффективность своего алгоритма против других ИИ. Мы связывались с создателями разных покерных ботов, но они не горели желанием проводить состязания. Выделение мощностей для работы таких программ может обходиться в миллион долларов в день. 

После публикации исследований нам просто нечем было больше заняться. Некоторые в команде переключились на другие области или стали искать применение нашим трудам в реальном мире.

Когда Даг со мной связался, я увидел в этом интересную возможность посмотреть, как человек, обученный нашим ботом, проявит себя против живого соперника.

Ты говорил, что такой принцип применим вне покера. Где именно?

Мы думали об автономных автомобилях и роботах в теплицах. Новые технологии позволяют выращивать овощи и зелень в огромных количествах. Искусственный интеллект способен сильно в этом помочь. А сейчас мы тестируем применение ИИ в разработке лекарств.

Скриншот из PokerStars
В ранние годы онлайн покера PrimordialAA был одним из членов клуба Supernova Elite на PokerStars

А как именно это применимо к автономным машинам?

Если впереди большой трафик и пробки, можно смоделировать проблему, чтобы найти оптимальный маршрут, при котором тратится меньше времени, энергии и лучше дорожные условия.

Даг сказал, что ты был одним из тех, кто помог ему сконструировать префлоп диапазоны. Как так вышло?

Мы создали GTO-тренажер, который был чрезвычайно быстрым и эффективным. 

Когда работаешь с обычным солвером, даже если взять скромный диапазон префлоп решений, данные могут вырасти до колоссальных объемов. Существует столько разных флопов, а потом еще тернов! Это сотни терабайт информации — больше, чем поместится в любом компьютере. Солверам приходится абстрагировать данные. Они рассматривают только небольшое количество флопов, которые наиболее актуальны.

Наш бот работает иначе. Мы используем нейронные сети, чтобы построить настолько сложное дерево, насколько возможно. С данными объемом 500 терабайт, с которыми не сможет работать ни один ПК, наш алгоритм справляется за 30 секунд.

Даг может сказать: «Эй, давайте посмотрим, какой бет сайзинг при разных размерах стеков будет лучшим». Мы пропускаем через бота 2x, 2.1x, 2.2x, 2.3x и т.д. и находим оптимальное решение. 

Все это делалось до начала челленджа. Никто не знал, как будет реагировать Даниэль. Что, если он залимпит? Или поставит 3-бет на выбранный нами сайзинг? Мы не могли предусмотреть и проанализировать каждую возможную ситуацию.

Даг брал наши данные и прорабатывал их со своими коучами. Вместе они выделяли самые практичные решения. Нет смысла брать 57 разных сайзингов и пытаться их все запомнить. Проще взять парочку и подвязать к ним сложные стратегии, основываясь на том, что будем явным +EV, а что не принесет видимой пользы.

Мы обычно в день прогоняли около 150 решений через солвер и давали ему детальный лог. Позже он мог попросить подробнее разобрать ситуации, которые его заинтересовали.

Он обращался к вам после каждой сессии?

Подробностями матчей и выбранной им стратегии Даг делился с коучами. С ними он сверялся, насколько близко следует выбранной тактике.

А нас просил узнать решения солвера в специфичных спотах. Иногда он считал, что в его стратегии есть изъян. Мы давали ему столько информации, сколько могли.

Фото Пеллегрино с живого турнира
В последние пару лет у Брайана вернулся интерес к покеру

Игра Негреану сильно менялась по ходу матча. Вам приходилось адаптировать данные под его действия?

В начале мы сразу заметили его тенденции. У него встречались явные ошибки. Например, он заходил коллом под 3-беты с KK и QQ без позиции. Это даже не миксовая стратегия, а 100%-я дыра в игре. Нам нужно было понять, на чем основывались его решения.

Потом он стал миксовать сайзинги. Процесс подстройки и изменений был постоянным. В ходе матча многие вещи просто выбрасывались из стратегии как устаревшие.

Даг постоянно хотел знать больше. Ему все было мало.

Ты не думаешь, что обычных игроков может отпугнуть мысль, что покер так сложен?

Нужно понимать, чего это стоит — быть лучшим в мире.

Вы смотрите на игрока НБА и думаете, что он с рождения талантлив. Ведь, когда выходит на поле, легко забрасывает трехочковые. В реальности с ними занимаются диетологи, коучи бросков, наняты отдельные тренеры для всего, что они делают.

С каждым годом в соревновательных играх вроде покера оставаться на вершине все труднее. Когда начинал в далеком 2002-м, был обычным смышленым парнем, пытавшимся перехитрить других. В те времена не было солверов. Стратегии обсуждались с друзьями. Уверен, таким был и баскетбол в 70-е. Но спорт эволюционирует, приходится прикладывать больше усилий.

Лучшие сейчас намного круче топов 10-летней давности. Стив Карри и Леброн Джеймс сильнее всех, кто были несколько поколений назад.

Люди смотрят покер, видят невероятные коллы и фолды профи и даже понятия не имеют, какие неимоверные усилия они приложили, чтобы соревноваться на самом высоком уровне.

Оставить комментарий