Pluribus-niminen tekoäly kukisti pokeriammattilainen Darren Eliaksen, joka pitää hallussaan useimpien World Poker Tourin mestaruuksien ennätystä, ja Chris ”Jesus” Fergusonin, joka on voittanut kuusi World Series of Poker-turnausta. Jokainen ammattilainen pelasi erikseen 5000 kättä pokeria vastaan viisi kappaletta Pluribus.

toisessa kokeessa, jossa oli mukana 13 ammattilaista, jotka kaikki ovat voittaneet pokeria pelaamalla yli miljoona dollaria, Pluribus pelasi viisi ammattilaista kerrallaan yhteensä 10 000 kättä ja selvisi jälleen voittajaksi.

”Pluribus saavutti yli-inhimillisen suorituskyvyn monen pelaajan pokerissa, mikä on tunnustettu virstanpylväs tekoälyssä ja peliteoriassa, joka on ollut auki vuosikymmeniä”, sanoi Noam Brownin kanssa Pluribusta kehittänyt Angel Jordan-professori Tuomas Sandholm, joka viimeistelee Ph. D.: tään Carnegie Mellonin tietojenkäsittelytieteen osastolla Facebook AI: n tutkijana. ”Tähän mennessä yli-inhimillisen tekoälyn virstanpylväät strategisessa päättelyssä ovat rajoittuneet kahden osapuolen kilpailuun. Kyky voittaa viisi muuta pelaajaa näin monimutkaisessa pelissä avaa uusia mahdollisuuksia käyttää tekoälyä monenlaisten reaalimaailman ongelmien ratkaisemiseen.”

”kuuden pelaajan pelin pelaaminen pää edellä-pelin sijaan vaatii perustavanlaatuisia muutoksia siihen, miten tekoäly kehittää pelistrategiaansa”, Facebookiin tekoälyyn viime vuonna liittynyt Brown sanoi. ”Olemme riemuissaan sen suorituskykyä ja uskovat jotkut Pluribus’ pelissä strategioita saattaa jopa muuttaa tapaa ammattilaiset pelata peliä.”

Pluribusin algoritmit loivat sen strategiaan yllättäviä piirteitä. Esimerkiksi, useimmat ihmisen pelaajat välttää ”donk vedonlyönti” – että on, päättyy yhden kierroksen soittaa, mutta sitten alkaa seuraava kierros, jossa on panos. Se on nähnyt niin heikko siirto, joka ei yleensä tehdä strategista järkeä. Mutta Pluribus sijoitettu donk vedot paljon useammin kuin ammattilaiset, se voitti.

mainos

”Sen suurin vahvuus on sen kyky käyttää yhdistettyjä strategioita,” Elias sanoi viime viikolla, kun hän valmis 2019 World Series of Poker main event. ”Sitä samaa ihmiset yrittävät tehdä. On kyse ihmisten teloituksesta — tehdä tämä täysin sattumanvaraisesti ja johdonmukaisesti. Useimmat ihmiset eivät vain voi. ”

Pluribus kirjasi tilastollisesti merkittävän voiton, mikä on erityisen vaikuttavaa ottaen huomioon sen vastustuksen, Elias sanoi. ”Bot ei vain pelaa vastaan joitakin keskellä tien ammattilaiset. Siellä pelasi maailman parhaita pelaajia.”

Michael ”Gags” Gagliano, joka on tienannut urallaan lähes 2 miljoonaa dollaria, kilpaili myös Pluribusia vastaan.

”oli uskomattoman kiehtovaa päästä pelaamaan pokeribottia vastaan ja nähdä joitakin sen valitsemia strategioita”, Gagliano sanoi. ”Oli useita näytelmiä, joita ihmiset eivät yksinkertaisesti tee lainkaan, erityisesti liittyen sen vedon mitoitukseen. Botit / AI ovat tärkeä osa pokerin kehitystä, ja oli mahtavaa saada omakohtaista kokemusta tästä suuresta askeleesta kohti tulevaisuutta.”

Sandholm on johtanut tietokonepokeria tutkivaa tutkimusryhmää yli 16 vuotta. Hän ja Brown aiemmin kehittänyt Libratus, joka kaksi vuotta sitten ratkaisevasti voittaa neljä pokeriammattilaisten pelaa yhdistetty 120,000 kädet heads-up No-limit Texas hold ’ em, kahden pelaajan versio pelistä.

mainos

pelit kuten shakki ja Go ovat pitkään toimineet tekoälytutkimuksen virstanpylväinä. Näissä peleissä kaikki pelaajat tietävät pelilaudan tilan ja kaikki nappulat. Mutta pokeri on suurempi haaste, koska se on epätäydellinen informaatiopeli; pelaajat eivät voi olla varmoja, mitkä kortit ovat pelissä ja vastustajat voivat ja bluffaavat. Tämä tekee siitä sekä kovemman TEKOÄLYHAASTEEN että merkityksellisemmän monille reaalimaailman ongelmille, joihin liittyy useita osapuolia ja puuttuvia tietoja.

kaikki kahden pelaajan peleissä yli-inhimillisiä taitoja näyttäneet AIs: t tekivät sen approksimoimalla niin sanotun Nashin tasapainon. Nimetty edesmenneen Carnegie Mellon alumni ja Nobel-palkittu John Forbes Nash Jr., Nash tasapaino on pari strategioita (yksi per pelaaja), jossa kumpikaan pelaaja voi hyötyä muuttamalla strategiaa niin kauan kuin toisen pelaajan strategia pysyy samana. Vaikka tekoälyn strategia takaa vain tuloksen, joka ei ole huonompi kuin tasapeli, tekoäly selviytyy voittajana, jos vastustaja tekee virhearvioita eikä pysty ylläpitämään tasapainoa.

pelissä, jossa on enemmän kuin kaksi pelaajaa, Nashin tasapainon pelaaminen voi olla häviävä strategia. Joten Pluribus luopuu teoreettisia takeita menestys ja kehittää strategioita, jotka kuitenkin mahdollistavat sen johdonmukaisesti outplay vastustajia.

Pluribus laskee ensin ”blueprint” – strategian pelaamalla itsestään kuusi kopiota, mikä riittää ensimmäiselle panostuskierrokselle. Siitä lähtien Pluribus tutkii tarkemmin mahdollisia siirtoja hienorakeisella pelin abstraktiolla. Se katsoo eteenpäin useita liikkeitä, koska se tekee niin, mutta ei tarvitse katsoa eteenpäin aina pelin loppuun, joka olisi laskennallisesti kohtuuttomia. Limited-lookahead search on täydellinen informaatio-peleissä standardi lähestymistapa, mutta on äärimmäisen haastava epätäydellisen informaation peleissä. Uusi limited-lookahead hakualgoritmi on tärkein läpimurto, joka mahdollisti Pluribus saavuttaa yli-inhimillisen monen pelaajan pokeri.

tarkemmin sanottuna haku on suppean lookahead-alipelin epätäydellinen tietopeliratkaisu. Kyseisen alipelin lähdöissä tekoäly harkitsee viittä mahdollista jatkostrategiaa, joita jokainen vastustaja ja itse voisi omaksua pelin loppuosalle. Mahdollisten jatkostrategioiden määrä on paljon suurempi, mutta tutkijat havaitsivat, että heidän algoritminsa tarvitsee vain harkita viittä jatkostrategiaa pelaajaa kohti jokaisella lehdellä vahvan, tasapainoisen kokonaisstrategian laskemiseksi.

Pluribus pyrkii myös olemaan arvaamaton. Esimerkiksi vedonlyönti olisi järkevää, jos tekoäly piti parasta mahdollista kättä, mutta jos tekoäly panostaa vain silloin, kun sillä on paras käsi, vastustajat saavat nopeasti kiinni. Pluribus siis laskee, miten se toimisi kaikilla mahdollisilla otteillaan ja laskee sitten strategian, joka on tasapainossa kaikkien näiden mahdollisuuksien kanssa.

vaikka pokeri on uskomattoman monimutkainen peli, Pluribus käytti tehokkaasti laskentaa. AIs, joka on saavuttanut viimeaikaisia virstanpylväitä peleissä, on käyttänyt suuria määriä GPU: n palvelimia ja/tai tiloja; Libratus käytti strategioidensa kehittämiseen noin 15 miljoonaa ydintuntia ja käytti live-pelin aikana 1 400 suoritinydintä. Pluribus computed sen blueprint strategia kahdeksassa päivässä käyttäen vain 12400 ydin tuntia ja käytetään vain 28 ydintä aikana live play.

Vastaa

Sähköpostiosoitettasi ei julkaista.