Die KI namens Pluribus besiegte den Pokerprofi Darren Elias, der den Rekord für die meisten World Poker Tour-Titel hält, und Chris „Jesus“ Ferguson, Gewinner von sechs World Series of Poker-Events. Jeder Profi spielte separat 5.000 Hände Poker gegen fünf Kopien von Pluribus.

In einem weiteren Experiment mit 13 Profis, die alle mehr als $ 1 Million beim Poker gewonnen haben, spielte Pluribus fünf Profis gleichzeitig für insgesamt 10.000 Hände und ging erneut als Sieger hervor.

„Pluribus erzielte eine übermenschliche Leistung beim Multi-Player-Poker, was ein anerkannter Meilenstein in der künstlichen Intelligenz und in der Spieltheorie ist, die seit Jahrzehnten offen ist“, sagte Tuomas Sandholm, Angel Jordan Professor für Informatik, der Pluribus mit Noam Brown entwickelte, der seinen Ph.D. in der computerwissenschaftlichen Abteilung von Carnegie Mellon als Forscher bei Facebook AI abschließt. „Bisher waren übermenschliche KI-Meilensteine im strategischen Denken auf den Wettbewerb zwischen zwei Parteien beschränkt. Die Fähigkeit, fünf andere Spieler in einem so komplizierten Spiel zu schlagen, eröffnet neue Möglichkeiten, mit KI eine Vielzahl realer Probleme zu lösen.“

„Ein Sechs-Spieler-Spiel zu spielen, anstatt Kopf-an-Kopf erfordert grundlegende Änderungen in der Art und Weise, wie die KI ihre Spielstrategie entwickelt“, sagte Brown, der letztes Jahr zu Facebook AI kam. „Wir sind begeistert von seiner Leistung und glauben, dass einige der Spielstrategien von Pluribus sogar die Art und Weise verändern könnten, wie Profis das Spiel spielen.“

Die Algorithmen von Pluribus haben einige überraschende Funktionen in seine Strategie integriert. Zum Beispiel vermeiden die meisten menschlichen Spieler „Donk-Wetten“ – das heißt, eine Runde mit einem Call zu beenden, aber dann die nächste Runde mit einer Wette zu beginnen. Es wird als schwacher Schritt angesehen, der normalerweise keinen strategischen Sinn ergibt. Aber Pluribus platziert Donk Wetten weit häufiger als die Profis es besiegt.

Werbung

“ Seine größte Stärke ist seine Fähigkeit, gemischte Strategien zu verwenden „, sagte Elias letzte Woche, als er sich auf das 2019 World Series of Poker Main Event vorbereitete. „Das ist das Gleiche, was Menschen versuchen zu tun. Es ist eine Frage der Ausführung für Menschen – dies auf vollkommen zufällige Weise und konsequent zu tun. Die meisten Leute können es einfach nicht.“

Pluribus verzeichnete einen soliden Sieg mit statistischer Signifikanz, was angesichts seiner Opposition besonders beeindruckend ist, sagte Elias. „Der Bot spielte nicht nur gegen einige Profis in der Mitte der Straße. Es spielte einige der besten Spieler der Welt.“

Michael „Gags“ Gagliano, der in seiner Karriere fast 2 Millionen Dollar verdient hat, trat ebenfalls gegen Pluribus an.

„Es war unglaublich faszinierend, gegen den Poker-Bot zu spielen und einige der Strategien zu sehen, die er gewählt hat“, sagte Gagliano. „Es gab mehrere Spiele, die Menschen einfach nicht machen, vor allem in Bezug auf seine Wette Dimensionierung. Bots / AI sind ein wichtiger Teil in der Entwicklung von Poker, und es war erstaunlich, Erfahrungen aus erster Hand in diesem großen Schritt in Richtung Zukunft zu haben.“

Sandholm leitet seit mehr als 16 Jahren ein Forschungsteam, das Computerpoker studiert. Er und Brown entwickelten Libratus, das vor zwei Jahren vier Pokerprofis entscheidend schlug, die zusammen 120.000 Hände Heads-up No-Limit Texas Hold’em spielten, eine Zwei-Spieler-Version des Spiels.

Werbung

Spiele wie Schach und Go sind seit langem Meilensteine für die KI-Forschung. In diesen Spielen kennen alle Spieler den Status des Spielbretts und aller Teile. Aber Poker ist eine größere Herausforderung, weil es ein unvollständiges Informationsspiel ist; Spieler können nicht sicher sein, welche Karten im Spiel sind und Gegner können und werden bluffen. Das macht es sowohl zu einer härteren KI-Herausforderung als auch relevanter für viele reale Probleme, an denen mehrere Parteien und fehlende Informationen beteiligt sind.

Alle KIs, die bei Zwei-Spieler-Spielen übermenschliche Fähigkeiten zeigten, taten dies, indem sie sich dem sogenannten Nash-Gleichgewicht annäherten. Benannt nach dem verstorbenen Carnegie Mellon Alumnus und Nobelpreisträger John Forbes Nash Jr., ist ein Nash Equilibrium ein Paar Strategien (eine pro Spieler), bei denen keiner der Spieler von einer Strategieänderung profitieren kann, solange die Strategie des anderen Spielers gleich bleibt. Obwohl die Strategie der KI nur ein Ergebnis garantiert, das nicht schlechter ist als ein Unentschieden, geht die KI als Sieger hervor, wenn ihr Gegner Fehleinschätzungen vornimmt und das Gleichgewicht nicht aufrechterhalten kann.

In einem Spiel mit mehr als zwei Spielern kann das Spielen eines Nash-Gleichgewichts eine Verluststrategie sein. Pluribus verzichtet also auf theoretische Erfolgsgarantien und entwickelt Strategien, die es ihm dennoch ermöglichen, Gegner konsequent auszuspielen.

Pluribus berechnet zunächst eine „Blueprint“ -Strategie, indem er sechs Kopien von sich selbst spielt, was für die erste Wettrunde ausreicht. Von diesem Punkt an führt Pluribus eine detailliertere Suche nach möglichen Zügen in einer feinkörnigeren Abstraktion des Spiels durch. Es sieht dabei mehrere Züge voraus, erfordert jedoch nicht den ganzen Weg bis zum Ende des Spiels, was rechnerisch unerschwinglich wäre. Limited-Lookahead-Suche ist ein Standardansatz in Perfect-Information-Spielen, ist aber in Imperfect-Information-Spielen extrem herausfordernd. Ein neuer Suchalgorithmus mit begrenztem Lookahead ist der wichtigste Durchbruch, der es Pluribus ermöglichte, übermenschliches Multiplayer-Poker zu erreichen.

Insbesondere ist die Suche ein unvollkommenes Informationsspiel anstelle eines begrenzten Lookahead-Unterspiels. Am Ende dieses Teilspiels betrachtet die KI fünf mögliche Fortsetzungsstrategien, die jeder Gegner und er selbst für den Rest des Spiels anwenden könnten. Die Anzahl der möglichen Fortsetzungsstrategien ist weitaus größer, aber die Forscher fanden heraus, dass ihr Algorithmus nur fünf Fortsetzungsstrategien pro Spieler auf jedem Blatt berücksichtigen muss, um eine starke, ausgewogene Gesamtstrategie zu berechnen.

Pluribus will auch unberechenbar sein. Zum Beispiel wäre Wetten sinnvoll, wenn die KI die bestmögliche Hand hält, aber wenn die KI nur dann setzt, wenn sie die beste Hand hat, werden sich die Gegner schnell durchsetzen. Also berechnet Pluribus, wie es mit jeder möglichen Hand handeln würde, die es halten könnte, und berechnet dann eine Strategie, die über all diese Möglichkeiten ausgewogen ist.

Obwohl Poker ein unglaublich kompliziertes Spiel ist, hat Pluribus die Berechnung effizient genutzt. KIs, die jüngste Meilensteine in Spielen erreicht haben, haben eine große Anzahl von Servern und / oder Farmen von GPUs verwendet; Libratus verwendete rund 15 Millionen Kernstunden für die Entwicklung seiner Strategien und während des Live-Spiels 1.400 CPU-Kerne. Pluribus berechnete seine Blueprint-Strategie in acht Tagen mit nur 12.400 Kernstunden und verwendete während des Live-Spiels nur 28 Kerne.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.