Η μάχη των μηχανών: Ποιο μοντέλο ΑΙ θα επικρατήσει στο πόκερ;

d. antoniouΔιεθνή ΝέαLeave a Comment

Η τεχνητή νοημοσύνη είναι παντού στις μέρες μας.

Και το ίδιο ισχύει για τα άρθρα που ξεκινούν με παραλλαγές αυτής της πρότασης. Ας το παραδεχτούμε: δεν χρειάζεστε να εξηγηθεί διεξοδικά η άνοδος των Μεγάλων Γλωσσικών Μοντέλων (LLM) τα τελευταία χρόνια – πιθανότατα έχετε ήδη πρόσβαση σε ένα αυτή τη στιγμή, στην ίδια συσκευή από την οποία διαβάζετε αυτές τις λέξεις.

Προϊόντα τεχνητής νοημοσύνης για τον καταναλωτή, όπως τα Grok, ChatGPT, Gemini και άλλα, έχουν εισχωρήσει στη ζωή μας με αμέτρητους τρόπους. Από τους υποψήφιους εργαζομένους έως τους εργοδότες, και από τους μαθητές έως τους δασκάλους, όλοι έχουν καθήκοντα που με χαρά αναθέτουν στην τεχνητή νοημοσύνη.

Είναι μερικά καλύτερα από άλλα; Λογικά, ναι – αναπτύσσονται από διαφορετικές ομάδες, συχνά με διαφορετικούς στόχους. Ποιο από αυτά χρησιμοποιεί κανείς μπορεί να εξαρτάται από την πρόσβαση, το κόστος, τη συγκεκριμένη χρήση ή απλώς τη συνήθεια. Από την οπτική του μέσου χρήστη, το ένα είναι συχνά εξίσου καλό με το άλλο.

Αλλά έχετε ποτέ αναρωτηθεί ποιο από τα μεγάλα LLM θα τα πήγαινε καλύτερα σε ένα τραπέζι πόκερ;

Ένας άνθρωπος που το έχει σκεφτεί είναι ο Max Pavlov, Ρώσος στην καταγωγή και διαχειριστής προϊόντων πληροφορικής που ζει στην Πορτογαλία. Αργότερα μέσα στον μήνα, θα τα βάλει όλα στη δοκιμή σε ένα εκτεταμένο παιχνίδι πόκερ, όπως κανένα άλλο που έχει γίνει μέχρι σήμερα, όπου τα μεγαλύτερα ονόματα της καταναλωτικής τεχνητής νοημοσύνης θα αναμετρηθούν για να ξεχωρίσει το κορυφαίο από το μέτριο. Ποιο θα παίξει σαν επόμενης γενιάς – και ποιο σαν… παίκτης της κακιάς ώρας;

«Μελετώ το παιχνίδι και προσπαθώ να σκεφτώ πως η μελέτη μου μπορεί να γίνει πιο αποτελεσματική. Με συναρπάζουν τα solvers, αλλά μάλλον με κατακλύζουν λίγο, οπότε προσπαθώ να δημιουργήσω απλές στρατηγικές για τον εαυτό μου – τα solvers ίσως είναι υπερβολικά πολύπλοκα για μένα σε αυτή τη φάση.

Σκέφτηκα πώς τα LLMs θα μπορούσαν να με βοηθήσουν, αλλά φαίνεται να υπάρχει μια γενική συμφωνία ότι πρέπει να είσαι ιδιαίτερα προσεκτικός όταν τα χρησιμοποιείς, γιατί μπορεί να αποκτήσεις κακές συνήθειες και η ανάλυσή τους δεν είναι πάντα συνεπής.

Δεν κατάφερα να βρω κάποια έρευνα για το ποιο LLM θα ήταν το καλύτερο για τις ανάγκες μου, οπότε αποφάσισα να διοργανώσω ένα τουρνουά για να βρω την απάντηση σε αυτό το ερώτημα.»

Το τουρνουά αυτό θα διεξαχθεί διαδικτυακά από τις 27 Οκτωβρίου έως τις 3 Νοεμβρίου στην πλατφόρμα PokerBattle AI, με όλα τα χέρια, τα αποτελέσματα και τη συλλογιστική κάθε AI παίκτη διαθέσιμα για το κοινό.

Όπως συμβαίνει με τα καλύτερα τηλεοπτικά παιχνίδια πόκερ, οι συμμετέχοντες θα οριστικοποιηθούν όσο πλησιάζει η ημερομηνία, αλλά είναι βέβαιο ότι θα λάβουν μέρος μερικά από τα μεγαλύτερα ονόματα του χώρου των LLM. Αναμένεται ότι τα Gemini, Claude, OpenAI, DeepSeek και Grok θα καθίσουν στα εικονικά τραπέζια στη μάχη για να αποδειχθεί ποια τεχνητή νοημοσύνη έχει το πάνω χέρι στο πόκερ.

Σε αντίθεση με τα περισσότερα παιχνίδια πόκερ, όμως, αυτοί οι «παίκτες» δεν θα χρειαστεί ποτέ να κάνουν διάλειμμα. Επίσης, σε αντίθεση με τα άλλα τηλεοπτικά παιχνίδια, τα πονταρίσματα θα είναι αποκλειστικά φανταστικά. Οι εταιρείες πίσω από τα συγκεκριμένα LLM δεν συμμετέχουν στη διοργάνωση και δεν θα διαθέσουν κεφάλαιο για να παίξουν οι «εκπρόσωποί» τους.

Επιπλέον, δεν θα γίνουν προσαρμογές ή ρυθμίσεις ειδικά για το τουρνουά – κάθε LLM θα μπει στο παιχνίδι στην ίδια μορφή που είναι διαθέσιμο στο κοινό, και όλα θα λάβουν το ίδιο prompt.

Οι λεπτομέρειες μπορεί να αλλάξουν όσο πλησιάζει η ημερομηνία, αλλά προς το παρόν, το κεφάλαιο (bankroll) κάθε παίκτη σε αυτό το υβριδικό παιχνίδι/τουρνουά no-limit hold’em θα είναι 100.000 δολάρια σε εικονικά χρήματα, με blinds $10/20 και αρχικά stacks $2.000. Οι παίκτες θα κάνουν αυτόματο top-up όταν το stack τους πέφτει κάτω από 50 big blinds, και θα κάνουν reload όταν χάσουν όλα τα χρήματά τους – μέχρι να εξαντληθεί το bankroll. Τα blinds δεν θα αυξάνονται.

Οι θεατές δεν θα μπορούν μόνο να παρακολουθούν το παιχνίδι και να διαβάζουν τη συλλογιστική κάθε παίκτη, αλλά θα έχουν επίσης πρόσβαση σε βασικά στατιστικά για κάθε AI.

«Θα κοινοποιήσω στατιστικά όπως VPIP, preflop raises, 3-bets, c-bet ποσοστό και άλλα. Αφού παίζουμε online, γιατί όχι;»

Ο Pavlov παραδέχεται ανοιχτά ότι είναι ερασιτέχνης παίκτης πόκερ – αν και πρόσφατα κατάφερε να κερδίσει χρήματα στο πρώτο event του WSOP Europe – και ότι δημιουργεί αυτό το project από πάθος και ενδιαφέρον για το πόκερ, όχι ως μια αυστηρά επιστημονική έρευνα.

«Θα προτιμούσα να μην θεωρηθεί αυτό το πείραμα ως ένα καθαρό benchmark. Ελπίζω να συγκεντρώσω 10 με 15 χιλιάδες χέρια, αλλά ακόμα κι έτσι, δεν θα είναι αρκετά για να δηλώσουμε με απόλυτη βεβαιότητα ότι το ένα LLM είναι καλύτερο από το άλλο. Παρ’ όλα αυτά, θα υπάρχει υπεραρκετό υλικό για να αναλύσουμε τα δυνατά και αδύναμα σημεία στη συλλογιστική τους.»

Ο γεννήτορας τυχαίων αριθμών (RNG), η λογική του παιχνιδιού και μεγάλο μέρος της διεπαφής που θα χρησιμοποιηθεί για τα παιχνίδια, προέρχονται από διαθέσιμο κώδικα ανοιχτής πρόσβασης, μεγάλο μέρος του οποίου έχει αναπτυχθεί από ακαδημαϊκή ομάδα στον Καναδά που ερευνά τη θεωρία παιγνίων.

Το πλαίσιο μέσα από το οποίο τα παιχνίδια μπορούν να προβληθούν και να αναλυθούν, ωστόσο, είναι δικό του δημιούργημα. Ένα από τα πιο ενδιαφέροντα στοιχεία της διεπαφής θα είναι ο τρόπος με τον οποίο κάθε παίκτης εξηγεί τη συλλογιστική πίσω από κάθε του κίνηση, προσφέροντάς μας μια ματιά στη διαδικασία λήψης αποφάσεων του.

Αυτή η διαφάνεια είναι μόνο ένας από τους πολλούς τρόπους με τους οποίους το project του Pavlov διαφέρει από τα εξελιγμένα προγράμματα τεχνητής νοημοσύνης για πόκερ, όπως τα Pluribus και Libratus – ειδικά σχεδιασμένα bots που στο παρελθόν έχουν αντιμετωπίσει ανθρώπινους αντιπάλους.

«Μπορείτε να σκεφτείτε, για παράδειγμα, το Libratus ως ένα bot αποκλειστικά φτιαγμένο για πόκερ, εκπαιδευμένο ειδικά για αυτό το παιχνίδι. Ως αποτέλεσμα, είναι πολύ πιο βελτιστοποιημένο βάσει της θεωρίας παιγνίων (GTO). Επιπλέον, είναι ένα είδος black box – του δίνεις την κατάσταση του χεριού, σου βγάζει μια απόφαση και τέλος.

Τα LLMs, από την άλλη, έχουν εκπαιδευτεί για κάτι πολύ διαφορετικό. Μπορείτε να τα φανταστείτε σαν ένα auto-complete σε… στεροειδή. Έχουν εξελιχθεί σε εξαιρετικά καλά εργαλεία για λογικές ή αναλυτικές εργασίες – για παράδειγμα, ξεπερνούν τους περισσότερους ανθρώπους σε μαθηματικές ολυμπιάδες – αλλά δεν περιμένω καθόλου να παίζουν GTO.

Στο σύνολο των δεδομένων εκπαίδευσής τους, υπάρχουν πληροφορίες για τη θεωρία παιγνίων, συμπεριλαμβανομένης και της θεωρίας παιγνίων που αφορά το πόκερ. Έχουν εκπαιδευτεί σε σχεδόν όλο το περιεχόμενο του διαδικτύου, οπότε μέσα σε αυτό περιλαμβάνονται αναρτήσεις σε φόρουμ, αναλύσεις χεριών, αποσπάσματα από βιβλία, και άρθρα ή blogs για το πόκερ.

Αλλά σίγουρα θα κάνουν πολλά λάθη. Ουσιαστικά παράγουν την επόμενη λέξη, το επόμενο token, και είμαι πολύ περίεργος να δω πώς θα καταφέρουν να δημιουργήσουν απλές, κατανοητές στρατηγικές.»

Αν οι παίκτες τεχνητής νοημοσύνης είναι απίθανο να παίξουν GTO πόκερ, πόσο πιθανό είναι να παίξουν με exploitative στιλ; Η ιδέα ότι οι AI παίκτες ίσως προσαρμόζονται στη ροή του παιχνιδιού καθώς αυτό εξελίσσεται είναι ένα από τα πολλά ζητήματα του πειράματος που μένει να δούμε στην πράξη.

«Πολλές χρήσιμες πληροφορίες στο τραπέζι του πόκερ δεν προέρχονται από το τρέχον χέρι, αλλά από τις προηγούμενες αλληλεπιδράσεις με συγκεκριμένους παίκτες. Χρειάζονται έναν τρόπο να αποθηκεύουν πληροφορίες από τα προηγούμενα χέρια και να τις ενσωματώνουν στο πλαίσιο του τρέχοντος χεριού. Και φυσικά, μπορώ να τοποθετήσω τις πλήρεις περιγραφές των τελευταίων 100 χεριών στο context window και να ελπίζω ότι θα κάνουν κάτι δημιουργικό με αυτό.

Ο μηχανισμός των σημειώσεων υπάρχει ήδη, οπότε γιατί να μην τον χρησιμοποιήσουμε; Μπορεί να αποδειχθεί υπερβολική ποσότητα πληροφορίας, αλλά μπορεί και να προσθέσει μια νέα διάσταση στο παιχνίδι.»

Η χρήση υπαρχουσών τεχνολογιών – όπως λογισμικού ανοιχτού κώδικα για RNG, έτοιμης διεπαφής και του μηχανισμού σημειώσεων – είναι ακριβώς αυτό που καθορίζει τον χαρακτήρα αυτού του project. Δεν υπάρχουν μεγάλα κεφάλαια πίσω από το πείραμα, ούτε εξειδικευμένα προγράμματα πόκερ ή εργαστηριακές συνθήκες· πρόκειται απλώς για ένα τεστ των εργαλείων που έχουμε όλοι διαθέσιμα σήμερα, το οποίο όμως θα μπορούσε να αποτελέσει οδηγό για το που κατευθύνεται η τεχνολογία του πόκερ.

Και, ως φόρος τιμής στη «DIY» (do-it-yourself) φύση του πειράματος, ο Pavlov δημιούργησε ολόκληρο το project μόνος του, παρά το γεγονός ότι δεν είναι προγραμματιστής. Ε, σχεδόν μόνος του.

«Με έναν τρόπο, αυτό είναι επίσης μια απόδειξη της δυνατότητας ότι μπορείς να δημιουργήσεις πράγματα, ακόμα κι αν δεν είσαι προγραμματιστής. Το έφτιαξα χρησιμοποιώντας μια τεχνητή νοημοσύνη.»


(21+| ΑΡΜΟΔΙΟΣ ΡΥΘΜΙΣΤΗΣ:ΕΕΕΠ | ΚΙΝΔΥΝΟΣ ΕΘΙΣΜΟΥ & ΑΠΩΛΕΙΑΣ ΠΕΡΙΟΥΣΙΑΣ | ΓΡΑΜΜΗ ΒΟΗΘΕΙΑΣ ΚΕΘΕΑ: 2109237777 | ΠΑΙΞΕ ΥΠΕΥΘΥΝΑ)