Искусственный интеллект научился блефовать

Компьютер обыграл сразу пятерых профессиональных игроков в покер
Компьютер нельзя заставить совершить ошибку из-за усталости или невнимательности /Дмитрий Феоктистов / ТАСС

Специалисты Facebook и Университета Карнеги-Меллон достигли нового этапа в разработке искусственного интеллекта (AI). Если раньше он уже побеждал людей в таких играх, как шахматы и го, где требуется стратегическое мышление, то теперь созданный ими бот Pluribus обыграл профессиональных игроков в покер. Компьютер не только просчитывал возможные ситуации, но и обманывал соперников, когда ему приходилось блефовать.

Другой разработанный специалистами Карнеги-Меллон бот Libratus два года назад уже побеждал профессиональных игроков в покер. Но тогда игра велась один на один, а сейчас AI противостоял сразу пятерым игрокам, каждый из которых за свою профессиональную карьеру в покере заработал более $1 млн, отмечает The Wall Street Journal.

Обычно AI теряется в непредсказуемых ситуациях, что пока ограничивает его применение, утверждают эксперты. Поэтому такие игры, как покер, где присутствует характерная для реальной жизни неопределенность, особенно привлекают разработчиков AI, пишет WSJ. «[В покере] присутствует скрытая информация, а осложняет ситуацию то, что соперник знает то, чего не знаешь ты, – приводит издание слова Туомаса Сандхольма, профессора Университета Карнеги-Меллон и одного из разработчиков Pluribus. – Приходится размышлять, не пытается ли соперник тебя обмануть».

При игре с несколькими соперниками понять это и самому блефовать еще сложнее. Чтобы отточить навыки блефа и разработать собственную стратегию, Pluribus сыграл триллионы раз против пяти собственных клонов, каждый раз анализируя принятые им решения, рассказал WSJ один из его создателей Ноам Браун из Facebook AI Research. Если они оказывались удачными, росла вероятность того, что он снова выберет их в будущем. Таким образом, Pluribus понял, что сможет побеждать даже со слабыми картами на руках, если заставит соперника спасовать. «Люди считают, что способность блефовать – исключительно человеческое качество и для этого нужно смотреть в глаза другого, – отмечает Браун. – На самом деле это математика. Мы можем создать алгоритм AI, способный блефовать лучше любого человека».

Например, в одном из розыгрышей Pluribus достались туз и двойка треф. Он начал игру стандартно, повысив ставку до $250. Двое людей приняли ее, остальные спасовали. Первыми тремя общими выложенными на стол картами оказались пиковый валет, бубновая пятерка и король треф. Pluribus решил блефовать и поставил $800. Один игрок спасовал, но другой продолжил играть. Четвертой общей картой стала тройка червей. У компьютера оставались лишь небольшие шансы на стрит (пятую по силе комбинацию, состоящую из пяти последовательных карт), но он снова решил блефовать, поставив еще $2400. Последний оставшийся игрок – Линус Лелигер уравнял ставку. Пятой общей картой стала восьмерка пик, и Pluribus скорее всего проиграл бы. Но он пошел ва-банк, поставив все имевшиеся у него $6550. Лелигер сдался, хотя у него была более сильная комбинация.

WSJ не удалось получить комментарии у Лелигера. Но другой проигравший игрок – Джейсон Лес сказал, что Pluribus играл агрессивно: «У меня было ощущение безнадежности. Казалось, победить невозможно».

«У AI есть несправедливое преимущество перед людьми: он не устает, не испытывает голода и эмоций», – рассуждает другой проигравший, Майкл Гальяно, игрок с 11-летним стажем. Поэтому с ним нельзя использовать умственную и физическую усталость противника, чтобы заставить его совершить ошибку, что является важной частью игры между людьми. По словам Гальяно, этот опыт навел его на мысли, что в покере, как и в других областях, все более важным становится анализ данных.

Еще один признак прогресса AI заключается в том, что у Pluribus только два чипа, благодаря чему он использовал менее 128 Гб памяти. В то время как у его предшественника Libratus, игравшего против одного соперника в 2017 г., было 100 чипов, отмечает WSJ. Для сравнения: обыгравший Гарри Каспарова в шахматы в 1997 г. компьютер Deep Blue от IBM имел 480 специальных чипов. В го намного больше возможных комбинаций, чем в шахматах, так как игра ведется на доске размером 19х19 линий. Поэтому у разработанного Google для этой игры компьютера AlphaGo было 1920 чипов. В январе 2016 г. он смог вчистую (5:0) победить европейского чемпиона в го Фань Хуэя, француза китайского происхождения. В марте того же года AlphaGo сыграл против корейца Ли Седоля, считающегося одним из лучших игроков в мире. Но тот выступил не намного лучше, сумев взять у компьютера только одну партию из пяти.