Sztuczna matematyka – modele językowe zaczynają zawstydzać matematyków | dr Bartosz Naskręcki

Bardzo szybko się przekonaliśmy, że nasze wyobrażenie o tym, co jest trudne, a co mogą robić modele językowe, to były dwa zupełnie różne światy – mówi odcinku nr 283 dr Bartosz Naskręcki, prodziekan Wydziału Matematyki i Informatyki Uniwersytetu Adama Mickiewicza w Poznaniu.

Dr Naskręcki jest jedynym polskim naukowcem w międzynarodowym zespole FrontierMath. Zespół zebrał się, by stworzyć bazę zupełnie nowych, nigdzie wcześniej niepublikowanych problemów matematycznych i sprawdzić, jak sobie z nimi poradzą popularne duże modele językowe (LLM). A radzą sobie nieźle: podały poprawną odpowiedź do ok. 20% przygotowanych zadań, a ich rezultaty są coraz lepsze z czasem (wraz z rozbudową i dotrenowywaniem modeli w internecie). LLM-y można wykorzystać też do weryfikowania poprawności już istniejących prac matematycznych. – Magia matematyki polega na tym, że jak się ten program, czyli ten sformalizowany dowód, skompiluje w odpowiednim kompilatorze, to on mi daje gwarancję, że to jest poprawnie – wyjaśnia dr Naskręcki. W ten sposób naukowcy wyśledzili i naprawili błąd np. w wielkim twierdzeniu Fermata.

Wykorzystanie modeli AI to już rewolucja. – Można w pewnym sensie już tworzyć matematykę trochę bez matematyków – zauważa gość. Oczywiście na razie to narzędzie i wciąż potrzebny jest człowiek, który nim kieruje, wpisuje prompty i weryfikuje wyniki. Kolejnym poziomem rewolucji byłoby stworzenie modelu zdolnego do samodzielnego tworzenia i rozwiązywania problemów matematycznych. Wydaje się jednak, że do tego jeszcze daleko. – Modele nie będą robiły niczego kognitywnie ciekawego, dopóki nie pozwolimy im wchodzić w różne interakcje. Bez interakcji trudno mi sobie wyobrazić, że coś, co ma ewidentnie pewną strukturę dynamiczną, a świadomość ma strukturę dynamiczną, da się wytworzyć w takim algorytmie – dodaje.

W odcinku usłyszycie też sporo rozważań na temat świadomości i dowiecie się, jak weryfikować prawdziwość rozwiązań, których nie umiemy policzyć, i dlaczego matematyk z modelem AI jest jak pasterz. Polecamy!

TRANSKRYPCJA

Karolina Głowacka: Dr Bartosz Naskręcki, matematyk, prodziekan Wydziału Matematyki i Informatyki Uniwersytetu im. Adama Mickiewicza w Poznaniu, gości w studio Radia Naukowego. Dzień dobry.

Bartosz Naskręcki: Dzień dobry.

K.G.: Mieliśmy się spotkać w Poznaniu, gdzie byłam niedawno w podróży, ale tak los chciał, że widzimy się w Warszawie. Też fajnie, nie?

B.N.: Bardzo.

K.G.: Pan doktor zajmuje się geometrią algebraiczną. Jest jedynym polskim naukowcem (póki co!) zaproszonym do udziału w międzynarodowym projekcie FrontierMath, koordynowanym przez Epoch AI. Ten projekt zajmuje się testowaniem możliwości matematycznych modeli sztucznej inteligencji i chciałam tutaj, w tej zajawce, sobie napisać, że zajmuje się testowaniem rozumowania matematycznego, ale się zawahałam, czy to jest dobre słowo, i będę też o to pana pytać. Pan doktor też jest w Centrum Wiarygodnej Sztucznej Inteligencji Politechniki Warszawskiej. O tej wiarygodności też chętnie z panem pogadam. Na początek to testowanie matematyczne, bo czytałam, że ono się odbywa z zachowaniem bardzo wysokich standardów dyskrecji, że to nie są żarty, że to są zawsze problemy nowe, żeby sobie te modele nie mogły ściągać z czegoś, co gdzieś ktoś już rozwiązał. Jak wygląda to testowanie?

B.N.: To jest tak, że jak spojrzymy, w jaki sposób te modele językowe są trenowane, to one są trenowane, czyli ich odpowiedzi są generowane, na podstawie tego, co przeczytały w internecie, co ściągnęły z książek. Więc jak się układa zadania, które mają nam jakby pomóc, żeby taki model językowy… Czy jeśli chcemy zrozumieć, czy na przykład zrobił jakiś postęp, czy kolejna generacja takiego modelu w pewnym sensie rozwiązuje zadania lepiej niż poprzednio, no to musimy przygotować zadania, które nie pojawiły się w żadnym miejscu w internecie, w książkach, w żadnych publikacjach, czyli musimy wymyślić tak naprawdę problem od zera, którego do tej pory nigdzie nie było. No i teraz pojawia się pewien problem, bo jeżeli takie problemy układamy, to to często jest tak, że matematycy na temat takich problemów po prostu piszą prace naukowe. I zazwyczaj się chcemy tym pochwalić, czyli chcemy stworzyć jakiś problem i go rozwiązać i opublikować. No i teraz w momencie, kiedy robimy taki benchmark…

K.G.: Czyli co, to jest taki punkt odniesienia? Co to jest benchmark?

B.N.: Benchmark to jest takie angielskie słowo oznaczające po prostu pewien rodzaj testu, gdzie generujemy ileś pytań. Te pytania muszą mieć dobrze określoną odpowiedź, czyli na przykład takim benchmarkiem jest właśnie zbiór zadań z olimpiady matematycznej. No ale teraz w momencie, kiedy te zadania zostają ujawnione, to okazuje się, że użyteczność takiego benchmarku jest krótkoterminowa, bo model w danym momencie jest wytrenowany na danych do jakiegoś tam określonego momentu, ale kiedy pojawia się kolejna generacja modeli i te zadania z rozwiązaniami są już opublikowane w internecie, no to teraz jeżeli na przykład dany model rozwiąże ileś z tych zadań, to właściwie to, co my oceniamy, to to, czy model dobrze przeczytał po prostu tekst w internecie, i tyle. Czyli jakby pomysł na ten benchmark FrontierMath, w którym brałem udział, polegał na tym, żebyśmy stworzyli zestaw problemów, których do tej pory nigdzie nie było. Czyli w zasadzie każdy z tych problemów to jest w pewnym sensie jakaś taka praca naukowa, którą stworzyliśmy, czy jakiś wariant pracy naukowej, którą stworzyliśmy na potrzeby tego benchmarku. I ważnym kryterium, żeby to dało się praktycznie oceniać, było to, żeby odpowiedzi na te pytania były liczbowe. No bo bardzo trudno jest oceniać, jak model coś generuje, to czasami można powiedzieć, że on generuje coś przypominającego matematyczny dowód. No ale matematyczne dowody mogą być różnego rodzaju. Tutaj można zmienić jedno zdanie, tu można zmienić drugie zdanie. Więc jakby bardzo trudno jest powiedzieć, czy na przykład jeżeli ja miałem modelowe rozwiązanie i porównam z tym, co generuje model, a model potrafi wygenerować coś, co ma na przykład 300 stron, a oficjalne rozwiązanie ma tych stron 10, to nie da się w łatwy sposób ocenić, czy jakby to, co on tutaj wytworzył, czy to rzeczywiście odpowiada dokładnie temu rozwiązaniu, które ja dałem, czy nie odpowiada.

K.G.: Może wytworzyć coś, co wygląda jak dobry dowód, ale nim nie jest?

B.N.: Właśnie na tym to polega, że większość modeli tak naprawdę mówimy, że one halucynują, a ja bym powiedział, że modele ściemniają. Czyli że jakby cały czas próbują nas przekonać…

K.G.: Żeby zadowolić użytkownika.

B.N.: Tak, próbują nas zadowolić, próbują nam pokazać pewne pomysły. I tam nie ma, jakby w samym sposobie działania modelu nie ma żadnego elementu, który by nam gwarantował, że to, co on wygeneruje, będzie poprawne logicznie. Czyli jakby musimy zakładać, że model jeżeli coś tam wytworzy, to będą jakieś fragmenty rozumowań pozlepiane ze sobą. One mogą czasami dać dobry wynik, czasami nie dać. I teraz właśnie dlatego zdecydowaliśmy się na to, żeby była na końcu liczba, no bo liczba jest jednoznaczną odpowiedzią. I teraz trudność polega na tym…

K.G.: A jeśli dobrze strzeli?

B.N.: No właśnie o to chodzi, że teraz te liczby, które wybieramy, to nie są liczby na przykład typu dwucyfrowa liczba, trzycyfrowa liczba jakaś albo dwa do pięćdziesiątej, coś, co jest proste. Musi to być liczba, która powstaje jako fragment jakiegoś rozumowania. Na przykład w jakimś zadaniu, powiedzmy, model oblicza coś, co nazywamy granicą jakiejś funkcji. I wiemy, że ta granica, powiedzmy, dajmy na to, byłaby liczbą pi. No i teraz oczywiście liczby pi nie da się podać wszystkich cyfr, ale można na przykład zrobić tak, żeby podać pierwszych 20 albo 30 cyfr rozwinięcia dziesiętnego. No i to w tym momencie byłoby już dobrym zadaniem. Ale teraz oczywiście cała trudność polega na tym, że jeżeli liczba pi byłaby rozwiązaniem, to istnieje duża szansa, że całe to zadanie skupia się na metodach, które są już bardzo dobrze rozpracowane w matematyce. Czyli w pewnym sensie jeżeli model naprawdę dużo przeczytał, to prędzej czy później znajdzie dużo elementów. To trochę jak taki detektyw. Jak już będzie widział oczywisty trop, to sobie to wszystko poskłada. A myśmy chcieli ułożyć zadania, gdzie nie pomagamy temu modelowi, że on nie wykonuje takiej tylko typowej pracy detektywistycznej, ale że w tych tokenach rozumowania, czyli w tej jakby odpowiedzi wewnętrznej, którą generuje, pojawiają się naprawdę elementy pomysłu oryginalnego rozwiązania. I ten wybór tych liczb i to jakby to połączenie, bo tych liczb mogło być więcej, możemy je potem dodać do siebie, pomnożyć, tutaj różne warianty były rozważane. I wiemy, że jeżeli ta odpowiedź będzie podana prawidłowa, to znaczy, że model musiał coś wytworzyć, co przypomina to ludzkie rozumowanie w tym problemie konkretnym.

K.G.: To ja mam tutaj od razu kilka pytań. Pierwsze, które mi się nasuwa, to jest takie, może ono z perspektywy matematyka nie jest najrozsądniejsze, ale są jeszcze takie problemy w matematyce, które można postawić zupełnie na nowo, że to już żadnego śladu nie było w sieci podobnego problemu? Rozumiem, że są, skoro je zrobiliście, ale to wydaje mi się być jakimś bardzo karkołomnym i trudnym zadaniem.

B.N.: Znaczy, właśnie, powiem tak: stosunkowo łatwo w matematyce można podać problemy, które ktoś rozwiązał, ale dla których bardzo trudno byłoby je zamienić na taką odpowiedź liczbową. Czyli że na przykład, powiedzmy, ktoś udowadnia jakąś hipotezę, na przykład hipotezę Riemanna, nadal otwarty problem matematyczny, no i teraz ja bym chciał, żeby ta osoba mnie przekonała, że ona ma naprawdę dowód tej hipotezy Riemanna. I teraz zaczynam się zastanawiać, czyli powiedzmy ja udowodniłem hipotezę Riemanna i chciałbym, żeby ktoś, kto twierdzi, że też udowodnił hipotezę Riemanna albo w jakimś sensie coś podobnego, przekonał mnie, że też ma dowód. No i teraz ja zaczynam go odpytywać z różnych własności tego dowodu. Oczywiście to też problem jest taki, że te dowody mogą się różnić, ale powiedzmy, wyobraźmy sobie, że jeżeli wiem, że ta osoba to udowodniła, coś zrozumiała, no to ja teraz zadaję różne pytania kontrolne. Na przykład na zasadzie takiej: ktoś mi mówi, że widział jakąś osobę popełniającą przestępstwo. No to ja teraz pytam, czy ona miała czarne włosy, czy była w okularach i tak dalej. Matematycznie robię to podobnie jakby, konstruuję ciąg takich pytań, takich zagadek, które jeżeli ktoś cały czas odpowiada prawidłowo, no to coraz bardziej uwiarygadnia podejrzenie, że ona czy on naprawdę zrozumiał, o co w tym chodzi. No i teraz żeby zrobić rzeczywiście taki test, taki benchmark, trzeba się tak namyślić: no nie mogę wziąć pracy naukowej, która już jest, bo to jest właśnie zakazane. Mogę napisać nową pracę naukową i w pewnym sensie ją pogrzebać. No i tak się dokładnie stało. Myśmy podczas tego sympozjum i przed tym sympozjum w maju zebrali sobie mnóstwo pomysłów takich matematycznych z naszej bieżącej pracy.

K.G.: Cały zespół, który pracował nad projektem?

B.N.: No, tam było łącznie kilkudziesięciu matematyków. Każdy przyjechał jakby z workiem pomysłów. Ale się bardzo szybko okazało, że już w maju były dostępne te modele jeszcze poprzedniej generacji, tam głównie używaliśmy do testów jednego takiego modelu od OpenAI, który normalnie jest dostępny publicznie. Próbując te nasze różne pytania w trybie incognito i czasami fragmenty, bardzo szybko się przekonaliśmy, że nasze wyobrażenie o tym, co jest trudne, a co mogą robić modele językowe, to były dwa zupełnie różne światy. Czyli dosłownie mieliśmy kilka takich pytań, gdzie wydawało się, że fantastyczne, trudne pytanie dotyczące jakichś skomplikowanych funkcji. Nawet jeżeli to jest ekspert, jak będzie siedział nad tym, no to co najmniej tydzień, dwa, nie ma szans. No a model językowy w jakimś sensie rozwiązał, czyli podał nam tą liczbę. I teraz to, co się okazało: że tak naprawdę to jest trochę taka gonitwa w tropy, że jeżeli zadania na przykład, w pewnym sensie modele działają trochę tak, że one czytając, przetwarzając te teksty na tokeny, one są w stanie porównywać to, co tam jest, czy generować tekst związany z tym, co tam jest, czyli trochę sobie tak wyobrażam, że np. jak wyobrażamy sobie takie zdanie, powiedzmy, mamy królowa brytyjska, czyli królowa z Wielkiej Brytanii, żyjąca w XIX wieku, no i teraz mówię, jak ma na imię. Model językowy jakby konstruuje ciąg tych tokenów i tych zanurzeń, że to jednoznacznie daje nam taki wektor, który można porównać z imionami, i największa korelacja wyjdzie z imieniem Wiktoria.

K.G.: A token to jest?

B.N.: Token to jest jakby słowo, słowo. To oczywiście jest trochę bardziej skomplikowane, bo tokenem może być pojedynczy symbol, liczba. Każdy model też jakby w inny sposób przetwarza teksty, czyli jak wprowadzam do modelu taki tekst, to on jest właśnie zamieniany na te tokeny, to mogą być czasami nawet sylaby.

K.G.: Takie najmniejsze jednostki, którymi się interesuje model?

B.N.: Tak. I tak naprawdę to, co robi dalej model, czy jakby zamienienie tego teraz na reprezentację wektorową i ten mechanizm atencji w transformerach i tak dalej, daje nam reprezentację słów, zdań, tekstów, które są takimi, mówimy, wektorami znaczeń. To jest rzeczywiście wektor liczbowy, czyli ciąg, tablica liczb, jednowymiarowa. Jeżeli na przykład próbuję to z czymś porównywać, no to jak porównuję wektory ze sobą, to najprostsza metoda to jest po prostu wziąć i rozpatrzyć kąt pomiędzy tymi wektorami. Tak się robiło w fizyce, prawda? No i teraz jeżeli dwa wektory są równolegle, to mówimy, że one są jakby semantycznie podobne. Czyli jakby sztuczka polega na tym, że modele potrafią sobie porównywać podobieństwo sensu różnych zdań, tak są wytrenowane, na poziomie takim matematycznym. To mówimy, to się nazywa podobieństwo cosinusowe, no bo tak naprawdę ten kąt, który mierzymy, to właściwie nie mierzymy kąta, tylko mierzymy cosinus, czyli po prostu wyliczamy iloczyn skalarny, a to się robi szybko na komputerze. W pewnym sensie do rozumienia tego, jak działają modele językowe, trzeba trochę rozumieć podstawy rachunku wektorowego. Cała dziwność polega na tym, że ta metoda właśnie działa. To właśnie to jest ten przełom pracy Attention is All You Need z 2017 roku, że tak prosty pomysł na to, żeby kojarzyć w jakimś sensie wektory za pomocą sensu i tak dalej, i później dalej generować na przykład nowe tokeny, czy jakby to, co ten model już jakby tutaj ma w tej reprezentacji, możemy kontynuować. Później to odkodowujemy z powrotem na tokeny i dostajemy normalny tekst. No i teraz…

K.G.: Mogę tutaj wejść w słowo? Bo pan jak mówi o tych wektorach, to cały czas wy tego nie widzicie, tak wskazuje palcami kierunek, że no bo wektor to jest kierunek, jak rozumiem.

B.N.: Tak.

K.G.: Ale to czy to jest tak, że dla modelu ma znaczenie kolejność użytych słów na przykład? To jest ten wektor, że on sobie rozumie od jednego, do drugiego, do trzeciego, tak?

B.N.: Tak, bo właśnie teraz jest kilka rzeczy. Po pierwsze, te wektory, ja tu sobie macham w trzech wymiarach, ale one tak naprawdę się kręcą w iluś tam tysiącach wymiarów. Czyli mamy bardzo dużo miejsca, żeby zakodować każdy kierunek, czyli powiedzmy jakaś kombinacja kierunków koduje jakąś cechę. To może być cecha językowa, na przykład że tutaj będzie jakieś imię albo że to będzie jakieś negatywne skojarzenie, no ale może być też właśnie zakodowanie, że to jest powiedzmy jakieś stwierdzenie matematyczne. Właściwie trudność polega na tym, że my tak rozumiemy to bardzo pojedynczo, powiedziałbym: bardzo lokalnie, ale jak już użyjemy tych modeli językowych, to wszystko jest zaimplementowane, to nagle w tej dużej skali te proste interpretacje gdzieś nam uciekają. Więc jakby ta prosta, naiwna interpretacja, że te wektory oznaczają pewne sensy, ona działa do pewnego momentu, a później trochę gubimy to wszystko. No i teraz jak dochodzimy, bo zaczęliśmy od modeli i od tych zadań matematycznych, jak dochodzimy do etapu, gdzie mamy generować całe rozumowania matematyczne, no to widać wyraźnie, że to jest dosyć dziwne. No bo teraz jak to jest możliwe, że w jakiejś tam wysokowymiarowej przestrzeni taki model, w sumie nie robiąc żadnego rozumowania w takim klasycznym sensie, jednak generuje te tokeny poprawnie i tam się pojawiają kolejne symbole, tak jak w prawdziwej matematyce. Niby coś tam liczy, tak? Buduje sobie jakieś programy w Pythonie, coś z tych programów wyciąga i na końcu podaje nam tą liczbę. No i teraz cały pomysł na benchmarkowanie polegał na tym, że jeżeli model nam rzeczywiście zwróci na tak wysokim poziomie tą liczbę nieprzypadkowo, to znaczy, że niezależnie od tego, czy potraktujemy na serio, że on tam rozumuje czy nie rozumuje, on w jakimś sensie coś musiał zrozumieć o tym zadaniu. Czyli to jest, tak naprawdę ten benchmark pokazuje, że tam się naprawdę coś dzieje więcej niż tylko takie proste kojarzenie kolejnych słów. Jest jakoś lepiej zakodowany styl rozumowania. To jest trudne do wyobrażenia, bo ludzie nie mają zielonego pojęcia, jak myślą. Jak teraz rozmawiamy, no to z nas wychodzą jakieś ciągi słów, które gdzieś tam odzwierciedlają nasze wewnętrzne poczucie jakiejś świadomości. Ja nie wiem, dlaczego te słowa do końca się w moich ustach pojawiają. Co gorsze, im bardziej zaczynam teraz o tym myśleć…

K.G.: Teraz jest dziwnie, no!

B.N.: …tym bardziej mi się zaczynają te słowa plątać, prawda? Czyli jakby ta świadoma część myślenia teraz zaczyna mi przeszkadzać w generowaniu tych słów, nie? Jak teraz myślę na przykład o matematyce, to często jest tak, że ja myślę w ogóle bez słów. I to jest dosyć dziwne, że mogę całe rozumowanie przeprowadzić tak, że niczego nie napiszę i dopiero na końcu koduję to za pomocą słów, tak żeby, powiedzmy, inny matematyk czy inna osoba mogły to spróbować zrozumieć.

K.G.: To czym pan myśli? Wyobraźnią jakąś?

B.N.: Każdy matematyk wydaje mi się, że ma trochę inny zestaw tych intuicji. Są osoby, które myślą na przykład tak bardzo geometrycznie, że wszystko sobie wyobrażają w formie jakiejś sytuacji dynamicznej. Tam się coś porusza, jakieś obiekty się przełączają. Ja mam na przykład taką intuicję dosyć mocno osadzoną w algebrze, czyli na przykład bardzo dobrze mi się myśli abstrakcyjnymi symbolami, że tam się pojawiają jakieś operacje matematyczne, które się ze sobą łączą. Ale w pewnym sensie ta intuicja jest taka trochę geometryczna, więc jak na przykład ktoś pisze mi równanie algebraiczne, to ja nie widzę tam tylko liter X i jakichś kwadratów i tak dalej. To jest taka ściana, że kompletnie nic z tego nie widzę. Ja raczej widzę to często jako jakieś punkty na płaszczyźnie zespolonej albo jakieś relacje algebraiczne i to bardzo pomaga później rozumować o tych rzeczach. Są też jeszcze inne rodzaje intuicji, na przykład są matematycy, którzy mają intuicję kombinatoryczną, czyli powiedzmy rozwiązują jakiś problem dotyczący przeliczania zbiorów i oni doskonale czują, że na przykład jeden zbiór i drugi zbiór mają dokładnie tyle samo elementów, potrafią sobie świetnie przyporządkować, napisać takie całe historyjki, które mówią, w jaki sposób jeden zbiór się przelicza w drugi. I co jest ciekawe, większość matematyków ma tylko kilka takich intuicji i stara się z tego zrobić jakby najlepszy możliwy użytek, to znaczy zajmować się tą matematyką, którą się najlepiej czuje. Na przykład topolog bardzo dobrze rozumie połączenia kształtów i potrafi fantastycznie wyjaśnić pewne relacje takie dotyczące właśnie jakichś powiązania różnych obiektów. Ale na przykład może mieć bardzo słabą intuicję algebraiczną, czyli powiedzmy do tego momentu, kiedy to się dzieje nie na symbolach, to się czuje bardzo dobrze, ale później na przykład pojawia się jakiś problem. I też często to widać właśnie w zespołach, że na przykład jak matematycy piszą pracę, to patrząc po nazwiskach, można powiedzieć często, że o tutaj ten wniósł taką intuicję, a ten wniósł taką intuicję i jeden bez drugiego by sobie nie poradził. Czyli ta praca wspólna pomaga bardzo.

K.G.: To zbierzmy to teraz, co powiedzieliśmy do tej pory, że stworzyliście w zespole nowe problemy, nowe zadania, które zostały przedstawione modelom. I teraz moje pytanie jest takie: czy to są takie modele, które powszechnie znamy? Chat, Gemini, Grok czy tam inne, czy to są jakieś wyspecjalizowane? Którym modelom były te zadania przedstawiane?

B.N.: Wszystkie takie znane modele są używane. Taki jest tak naprawdę tylko sens tego benchmarku. Znaczy oczywiście…

K.G.: Ale to są te LLM-y, te językowe?

B.N.: Tak, tak.

K.G.: To nie są specjalistyczne, matematyczne modele?

B.N.: Większość modeli, które teraz mamy, to są takie modele multimodalne, które potrafią… To już właściwie nie jest jeden model, tylko to są często całe zespoły modeli. My jakby patrzymy przez interfejs, że mamy jedno okienko, do którego wpisujemy i swoje pytania, i swoje oczekiwania, i jakieś dokumenty, maile, pytania.

K.G.: Pragnienia, marzenia, tajemnice, sekrety.

B.N.: Ja zazwyczaj wpisuję formuły matematyczne. I to jest nadal ten sam model w pewnym sensie. Ale to też pokazuje, dlaczego tak jest. No bo gdybym miał tylko model, który powiedzmy rozumie jedną konkretną dziedzinę wiedzy, to bardzo trudno byłoby mi się z nim dogadać. No bo nawet jak naukowiec o czymś myśli, to używa zazwyczaj do tego języka naturalnego. I powiedzmy, nie wiem, opisanie danego twierdzenia matematycznego łatwiej mi jest podać w języku naturalnym, niż podać tam na przykład sformalizowaną definicję w jakimś specjalistycznym języku. Czyli to jakby… Model trochę powinien być taki ogólnego typu, żeby nie było tak, że on w ogóle się ze mną nie dogada. Jest taki model, który rozwiązuje zadania z geometrii, on się nazywa AlphaGeometry. I on właśnie tak działa, że z nim się w zasadzie nie pogada. To znaczy to jest model, który… Zadania, które mu się podaje, są jakby przetłumaczone na taki specjalny format, i on znajduje dowody tych twierdzeń. Ale jak popatrzymy pod spodem, jak dokładnie działa ten model, to sobie można zainstalować na swoim komputerze, to okazuje się, że każdy krok, każdy token to jest jakaś konstrukcja geometryczna, ale zapisana w takim specjalnym języku JGEX, gdzie ona dla człowieka jest mało przyjemna do czytania. No i teraz można powiedzieć tak: ten model świetnie liczy, ale teraz gdybym zapytał go, powiedzmy, napisz mi jakąś fraszkę, no to model w ogóle nie zrozumie. Jest jak ta mrówka, że on będzie cały czas robił swoje, ale tylko w tej konkretnej dziedzinie. I te ogólne modele, które używamy, one są trochę jakby na odwrót, czyli one są wytrenowane w bardzo wielu dziedzinach tak po trochu, żeby mniej więcej wszystko kojarzyły. No i to jest właśnie ten paradoks, że część tych modeli już jest na tyle dobrze wytrenowana, i stąd jest właśnie ten nasz benchmark, że okazuje się, że one też potrafią sobie jakoś poradzić z zadaniami matematycznymi również.

K.G.: I które radziły sobie dobrze? Jaki tam był poziom zdawalności testu?

B.N.: Na razie stan na wczoraj to jest tam chyba 8 czy 9 zadań…

K.G.: Rozmawiamy pod koniec grudnia.

B.N.: …z 50, więc to tam wychodzi około 20% mniej więcej z tych zadań rozwiązanych. Przypominam, że benchmark…

K.G.: To nie jest źle!

B.N.: To jest nawet nieźle, aczkolwiek powiem tak: one rzeczywiście znalazły tą właściwą liczbę. Też nie wszystkie modele. To jest tak, że czasami jeden model coś rozwiąże, inny nie rozwiąże. Właściwie w tym momencie mamy chyba tylko, nie chcę robić tu reklamy jakimś modelom, ale mamy tak naprawdę tylko dwa modele i widać wyraźnie, że trend jest taki, że te modele, jak się powiększają i są trochę dotrenowywane lepiej na istniejącym internecie i pracach naukowych, to tak po troszeczku dziubną jeszcze jakieś jedno zadanie. Co i tak jest imponujące, bo powiedzmy szczerze, jakby posadzić żywego matematyka przed tymi naszymi problemami, to jeżeli to nie byłoby w jego dziedzinie, to myślę, że kilka miesięcy intensywnej pracy, żeby w ogóle wiedzieć, o co chodzi w tym problemie.

K.G.: Może pan podać te nazwy, u nas można.

B.N.: Ja używam zazwyczaj trzech. Używam Groka, używam GPT Pro, używam też Gemini w tej wersji takiej teraz UltraThink. Czasami używam Claude’a, chociaż bardziej do programowania, i to też widać wyraźnie, że np. Claude to jest model, który dobrze napisze program, ale przez to jest trochę, no on jest tak wytrenowany, jest jakby troszkę mniej kreatywny i z tego powodu na przykład gorzej wpada na pomysły. Z kolei Grok jest taki trochę szalony.

K.G.: Ciekawe dlaczego!

B.N.: I tutaj w drugą stronę jest, że on różne rzeczy ze sobą kojarzy, jakby fakty, ale nie zawsze jakby konsystentnie to udowodni. Jak się dużo pracuje z tymi modelami, i to mówię tutaj o tych takich rzeczywiście najdroższych, najlepszych modelach, to widać, że one naprawdę się bardzo od siebie różnią. To nie jest tak, że to jest jeden, ten sam model, tak jak Chat GPT. Też prawda jest taka, że większość użytkowników, ja myślę, że duża większość, zdecydowanie nie używała jeszcze modeli innych niż bezpłatne, więc to też często widać w różnych dyskusjach, jak gdzieś się przysłuchuję, że ktoś narzeka, ale po prostu te modele się naprawdę od siebie różnią, ale też bardzo zależy od prompta. Matematyka jest też specyficzna, bo w matematyce mamy jasno określone cele. Mechanizm weryfikacji jest też silny. To nie jest tak, że w każdej dziedzinie jesteśmy w stanie uzyskać podobne efekty. Ale z drugiej strony matematyka ma też ten problem, że jeden błąd w zdaniu może katastrofalnie zniszczyć całe rozumowanie, więc to ma plusy i minusy.

K.G.: To bardzo ciekawe, że jak pan pracuje z nimi intensywnie, z tymi modelami, to widzi między nimi różnice. Z czego to wynika? Z ich mocy obliczeniowych, z tego, czym zostały nakarmione, czy z tego, że one jakoś jednak inaczej są skonstruowane? Bo w takim powszechnym rozumieniu, jak sądzę, jest tak, że te sieci neuronowe co do zasady wszystkie działają tak samo, czyli działają na skojarzeniach i działają na prawdopodobieństwach. Że jak on mi generuje ten esej, to na początku to coś, co tam siedzi, nie interesuje w zasadzie całość tego, tylko kolejne słowo interesuje. I tak wychodzi z prawdopodobieństwa, że ostatecznie mniej więcej to ma ręce i nogi, więc zasada działania wydaje mi się być taka sama tych wszystkich modeli. Ale może nie?

B.N.: Ja bym porównał to na przykład do tego, jak rosną różne rośliny. Jest taki ciekawy model, też matematyczny, pokazujący, w jaki sposób powstaje na przykład kalafior, a w jaki sposób powstaje brokuł. I okazuje się, że jak się zmieni pewne parametry w takim nawet modelowaniu matematycznym, jak one rosną, to z tego samego modelu powstanie raz kalafior, a raz brokuł. I one wyglądają zupełnie inaczej. I tutaj jest podobnie, też tak, jak jest z ludźmi. Mamy ludzi, którzy chodzą do szkoły, niektórzy nawet chodzą do tej samej szkoły i są niby z tego samego środowiska, ale jednak ten bogaty trening na wielu poziomach powoduje, że my się coraz bardziej zaczynamy różnić w którymś momencie. I w przypadku modeli, one oczywiście na jakimś takim fundamentalnym poziomie opierają się na podobnym pomyśle, czyli jest ten mechanizm atencji. Ale trzeba pamiętać, że prac uczenia maszynowego powstaje aktualnie dziesiątki, setki w ciągu tygodnia. I każde z tych laboratoriów implementuje i testuje właściwie prawie wszystkie nowe pomysły, które się pojawiają na rynku. Więc to, co my gdzieś tam czytaliśmy, że tam jest jakiś mechanizm atencji, no ale są warianty tego mechanizmu. Mało tego, można budować…

K.G.: A co to jest ten mechanizm atencji?

B.N.: Mechanizm atencji to jest ten podstawowy pomysł, który stoi za modelem językowym, który mówi, że jeżeli chcemy zbudować takie głębokie, semantyczne rozumienie języka, to trzeba zbudować takie specjalne macierze. To właśnie są te macierze atencji, które pozwalają nam powiedzieć, że na przykład słowo „kot” w jakimś sensie jest skorelowane ze słowem „zwierzę”. Że jak jest na przykład „kot w butach”, to połączenie tych dwóch słów będzie w jakimś sensie skorelowane z pojęciem bajki. I te korelacje czy jakby te podobieństwa, one nie są z góry narzucone, one tak naprawdę powstają w wyniku treningu modeli. Czyli zakładamy, że jakieś korelacje będą, no i tak trenujemy model, żeby te różne wagi tych modeli odzwierciedlały dokładnie ten mechanizm atencji, te korelacje, które tam się pojawiają. I teraz to, co mówiłem wcześniej, czyli ta architektura tych modeli, już jakby trochę wchodząc głębiej technicznie, ona jest bardzo zróżnicowana. No bo możemy mieć modele, które mają, powiedzmy, ten mechanizm atencji – głęboką sieć neuronową. Mają ułożone warstw 5, 10, 15, 20. Może być też kilka tych głowic atencji, jak to mówimy. One też mogą w różny sposób ze sobą wchodzić w pewne interakcje. Jak popatrzeć rzeczywiście na fundamentalnym poziomie, to tamte operacje, które wykonujemy, to są rzeczywiście dodawanie, mnożenie i to w zasadzie tyle. Ale to w skali, w połączeniu robi dużą różnicę. Czyli każdy z tych modeli, też jeszcze pamiętajmy o tym, że każdy model jest trenowany jednak w inny sposób, jeśli chodzi o filtrowanie danych. Na przykład modele są dotrenowywane później na przykład na zadaniach matematycznych albo na zadaniach z chemii. I każdy z tych szczegółów powoduje, ten proces trenowania, on trwa na przykład czasami pół roku. Czyli taki model typu Chat GPT zanim zostanie wypuszczony, to mija pół roku różnego rodzaju form treningu, na których on jest eksponowany na różnego rodzaju wiedzę. No i to jest tak jak właśnie, nie chcę porównywać z człowiekiem w tym sensie, że to jest zupełnie inny rodzaj mechanizmów kognitywnych, o ile w ogóle w modelach językowych możemy mówić o mechanizmach kognitywnych, ale w pewnym sensie to trochę pokazuje, że my możemy mieć tego samego przedszkolaka, niby przechodzi przez podobny trening, przez szkołę, ale mamy dwóch różnych studentów, nie? Z modelami jest dokładnie tak samo, że my je trenujemy jak tych studentów, no i czasami odpowiednia kolejność podawania tych danych. Też takie sztuczki, na przykład mało osób wie o tym, że modele są często generowane na potrzeby wewnętrzne organizacji, czyli tych laboratoriów różnych, są generowane takie bardzo duże modele, które mają duże możliwości, ale działają bardzo wolno. Potem się trenuje na przykład takie modele potomne, nazywa się to destylatami, które są jakby trenowane na mniejszej liczbie wag z modeli tych podstawowych. I one wtedy są wypuszczane na rynek, one działają szybciej, ale mają już wtedy inne własności. Jest taka platforma, ona się nazywa Hugging Face, gdzie można sobie modele otwartowagowe, czyli takie, które da się pobrać, można sobie ściągnąć. I aktualnie na tej platformie jest już 2,5 miliona różnych modeli językowych. Każdy z tych modeli jest trochę do czegoś innego wytrenowany. Jedne na przykład świetnie generują obrazki, tak jak Nano Banana. A inne np. właśnie rozwiązują równania matematyczne. A są modele, które robią jedno i drugie. Albo np. takie, które świetnie rozpoznają z mowy, bo to też można zamienić na tokeny, na tekst. Więc tu każdy model to jest troszeczkę inna bajka.

K.G.: Ale dla nas język naturalny a matematyka to jest trochę coś innego. Obraz to jest coś innego. Muzyka to jest coś innego. A czy dla tych modeli to jest ostatecznie jedno i to samo, w sensie ciąg zer i jedynek? No bo to jest bardzo ciekawe właśnie, że mamy ten sam model, już trzymajmy się tego Chata powiedzmy, no ale mamy tą linijkę, w której możemy coś wpisać. Ja mogę wpisać, pomóż mi zredagować ten akapit, a pan wpisuje tam formułę matematyczną i dla niego, dla tego urządzenia, dla tej sieci to jest to samo?

B.N.: Jeżeli ja wpiszę zwykły tekst, to każdy tekst zamieniany jest na tokeny, praktycznie to jest jedna i ta sama reprezentacja. Natomiast teraz oczywiście odpowiedź tego modelu, czyli powiedzmy jeżeli wziąłbym takiego wczesnego Chata GPT 2 albo 3, to jeżeli bym napisał zadanie z FrontierMath, to bym dostał jakieś dziwne brednie. Bym dostał jakieś tam słowa, które gdzieś tam w orbicie matematyki cyrkulują, ale to jakby jedno z drugim się nie skleja. To, że te modele w ogóle odpowiadają na przykład na nasze pytania, to jest też ciekawe. Normalnie podstawowy model językowy, jedyną rzecz, którą on robi, to generuje kolejny token. No więc żeby teraz model na przykład odpowiadał na pytania, w ogóle na formę pytaniową, to się go trenuje w tej fazie post-treningowej, czyli już po tym takim pierwszym przeszkoleniu na dużych tekstach. I on jest jakby wzmacniany, czyli jeżeli ja mu zadam pytanie, jak wygląda rozwiązanie równania kwadratowego, i on zacznie coś generować i to mi się nie podoba, to ja w tym treningu oznaczam to jako błędne rozwiązanie i wtedy model dostaje po łapkach. Czyli on jest modyfikowany tak, żeby nie robił tego. I to czasami taki trening, który może zajmować kilka dni, może tak bardzo zmienić możliwości modeli, że na przykład model, który pierwotnie nie programował, nie rozwiązywał zadań matematycznych, nagle zaczyna to robić. Ale też, co jest ciekawe, czasami się okazuje, że jak się go za dobrze wytrenuje w tego typu rzeczach, to na przykład kiepsko zaczyna pisać teksty. I to jest śmieszne, że my tak w sumie do końca nie wiemy. Jedyny pomysł, który na razie się zrodził w głowach różnych mądrych ludzi, to jest to, że jak się doda jeszcze więcej wag, czyli jakby ten model się powiększy, jego reprezentacja będzie większa, no to jest szansa na to, że on i będzie dobrze rozwiązywał zadania matematyczne, i sobie poradzi w szachy, i napisze fraszkę, i skróci mi maila, i może mi poopowiada coś sensownego o polityce. Ale to zawsze jest takie myślenie życzeniowe, że jeżeli będzie więcej miejsca i więcej treningu i więcej danych, to że model będzie lepiej nas naśladował. No bo to jest takie naśladowanie cały czas.

K.G.: Wracam teraz do tego, co pan mówił na początku, mianowicie że chcieliście wymusić, o ile dobrze rozumiem, na tych modelach sprawdzenie, czy one w jakiś sposób rozumują. Czyli że to nie jest tylko wygenerowanie tego najbardziej prawdopodobnego w języku to będzie słowa, a rozumiem, że w matematyce symbolu na przykład, tylko żeby zmusić je, żeby one autentycznie rozumowały. Co ma pan na myśli, używając tego określenia „rozumowanie”? Bo jesteśmy już na tym etapie, że się trochę potykamy chyba o definicje. Bo sami rozumujemy, a jak zaczniemy się pytać, jak rozmawialiśmy o tych słowach, że generujemy te słowa i to zaczyna być dziwne, kiedy myślimy o tym, dlaczego je generujemy, czemu ja to robię w ogóle tak szybko, jak to jest możliwe, w sumie to imponujące, nie?

B.N.: Albo zmieniam tempo?

K.G.: Nie? O kurde. No ale właśnie to rozumowanie to my czujemy, że rozumujemy, ale jak to zdefiniować, to już jest kłopot pewnie na takim etapie. Więc czym dla was było to rozumowanie i czy faktycznie, wróćmy do tego, jest tak, że przyłapaliście te modele na tym, że tam jest coś takiego jak rozumowanie?

B.N.: Może zacznijmy od tego, że właśnie jak układaliśmy te pytania i potem je testowaliśmy, to ja sobie też zadałem takie pytanie: co się dzieje ze mną, kiedy…

K.G.: Myślę.

B.N.: Myślę, tak, i później biorę tą kartkę, no i na tą kartkę przekładam, w sensie biorę długopis, tak, klawiaturę, i zaczynam tworzyć.

K.G.: Z mózgu płynie sygnał do mięśni, żeby coś zanotować. Jakie to jest skomplikowane!

B.N.: Robię jakąś fizyczną reprezentację. I stwierdziłem, że to jest trochę bez sensu, w sensie jedno z drugim moim zdaniem nie ma nic wspólnego. To znaczy nasze rozmowy w mózgu.

K.G.: Nasze rozumowanie z tym, co robią te maszyny.

B.N.: Tak, kompletnie. To nie ma nic wspólnego jedno z drugim. To znaczy, to jest jakieś dalekie echo, ale to jest tak na zasadzie, samoloty latają, ptaki latają, łączy je tylko powietrze i aerodynamika, ale jakby mechanizm ruchu jest totalnie różny, prawda? Tu mamy silnik, tam mamy skrzydła, jeszcze kompletnie inna geometria. Tak samo na przykład budowa oka. Mało osób wie, że na przykład oko ryby i oko człowieka, zupełnie dwa różne organy, ale łączy je ta sama funkcja, czyli umiejętność jakiegoś łapania bodźców, fotonów ze świata. I w pewnym sensie jak mówimy rozumowanie w modelach, to mamy na myśli jedną rzecz: że chcemy, żeby ten model wyprodukował nam symulację tekstu, który jak my przeczytamy, to on dla nas się będzie układał w taką narrację taką, aha, dobra, to z tego wynika, to z tym się wiąże i tak dalej. Czyli tak naprawdę taka robocza definicja rozumowania w modelach jest taka trochę naiwna. Ona po prostu oznacza, że jak przeczyta to człowiek, to powie, o, to ma sens. I tyle. Tam nie ma jakiejś fundamentalnej głębi. Z praktycznego punktu widzenia to jest tak, że model jak już generuje te napisy, to te najnowsze modele mają taką własność, że generują tzw. tokeny rozumowania. To po prostu są zwykłe tokeny, ale one bezpośrednio nie wchodzą w odpowiedź. Czyli to jest jakby coś na podobieństwo notatnika. Ja zapisuję sobie różne dziwne pomysły. Być może z tych dziwnych pomysłów w którymś momencie urodzi mi się rozwiązanie. No więc w pewnym sensie jak patrzymy na to, co robiły te modele z naszymi zadaniami, to one dokładnie coś takiego robiły, czyli tworzyły sobie różne ścieżki słów. Jeżeli teraz tych kilka ścieżek słów wytworzyły, no to model może jakby całość przeanalizować i na podstawie tej całości stworzyć nowy napis, który będzie podsumowywał. Powiedzmy, że jeżeli w trzech lub czterech ścieżkach nie udało mu się nic rozwiązać, ale wpadł na przykład na to, że tam trzeba użyć jakiejś delty do rozwiązania tego równania kwadratowego, a w jednym sobie przypomniał, że on rozwiązuje w liczbach zespolonych i tak dalej, i on to wszystko razem sobie wypisze, to prędzej czy później… Ja to sobie wyobrażam w ten sposób, że to jest taka trochę luźna analogia, ale myślę, że czasami pomagająca, że model jakby wie, że chodzi się w jakiś sposób. I każde z tych rozumowań, na których się uczył, to jest taka krótka ścieżka. I teraz… A my mu dajemy trudne zadanie, bo my chcemy, żeby on poszedł z punktu A do punktu B. No i teraz jedyne, co model może zrobić w takim przypadku, to jak jest w punkcie A, no to w jakimś sensie próbuje wybrać ścieżkę z tego punktu i gdzieś tam sobie podrepcze. I to jest właśnie to jego rozumowanie.

K.G.: Ale on widzi koniec, że tam jest to B na końcu?

B.N.: No właśnie to jest najdziwniejsze w tym wszystkim, że widzenie końca to jest na zasadzie takiej, że on próbuje wygenerować tokeny, które na końcu przetworzą się na tę końcową wersję napisu. To jest trochę bez sensu, bo on nie wie tak naprawdę, znaczy on nie ma jakby często planu. Ten plan się jakby pojawia dynamicznie, jak mu zadajemy pytanie, ten prompt, no to on rozkłada, czyli generuje jakieś napisy dotyczące tych słów, które się pojawiły. Jak te słowa się pojawiły w konkretnych kontekstach, to buduje sobie jakieś tam hipotezy takie badawcze, próbuje jakby rozpisywać różne pomysły na obliczenie pewnych rzeczy. Prawie każda z tych ścieżek nie prowadzi do niczego. Dlatego on musi tych ścieżek wyprodukować bardzo dużo. Taki model rozumujący potrafi wyprodukować w proporcji 10 do 1, na 10 tokenów rozumowania na końcu będzie tylko jeden token w odpowiedzi. Czyli ten jego notatnik, zanim on tam poda odpowiedź, która ma pół strony, to ten notatnik w praktyce może mieć nawet 300 stron. I na tych 300 stronach on… Bardzo fajnie to widać na przykład w modelu DeepSeek. To jest jeden z niewielu modeli, który te tokeny rozumowania pokazuje naprawdę. I to jest bardzo fajne doświadczenie, jak się zada prompt i wtedy można zobaczyć, że na przykład czasami model, ponieważ on jest trenowany na bardzo dużej liczbie danych chińskich, potrafi w spontaniczny sposób przejść na język mandaryński, bo w tym języku ma lepszą reprezentację tej wiedzy, i on sobie tę ścieżkę jakby buduje po mandaryńsku, potem wraca z powrotem na przykład do języka angielskiego czy do polskiego.

K.G.: Głęboko nieekonomiczne.

B.N.: To jest bardzo nieekonomiczne, ale w pewnym sensie to jest aktualnie jedyny pomysł, na który wpadły laboratoria, żeby zrobić coś lepszego, niż tylko takie głupie generowanie tokenów, które przypomina trochę coś, co nazywaliśmy kiedyś łańcuchem Markowa. Że tam jest tylko jakiś prosty rozkład prawdopodobieństwa i jakby kontynuujemy ten tekst. No i teraz dochodzimy do takiego miejsca, że jak ktoś powie: no dobra, no to czym jest rozumowanie? I zapytamy się, okej, kto rozumuje? No to mówimy: rozumuje pewnie ośmiornica, pies, delfin. No z nimi się nie dogadamy, ale możemy się dogadać z człowiekiem. To jest jakby jedyny przedstawiciel gatunku na Ziemi, z którym my sami możemy porozmawiać.

K.G.: A co pan, z psem pan się nigdy nie dogadał?

B.N.: Mój pies zazwyczaj, jak miałem psa, już niestety świętej pamięci, to rozmowa wyglądała tak, że on się do mnie uśmiechał i ja wiedziałem, że on chce pasztet.

K.G.: Dogadaliście się.

B.N.: Dogadaliśmy się, ale jak kiedyś próbowałem mu tłumaczyć zadania z olimpiady matematycznej, to on był taki bardzo afirmujący.

K.G.: Tak jak Chat! Świetnie, Bartek, świetnie.

B.N.: Zazwyczaj mnie poganiał, żebyśmy poszli w końcu na spacer. Plus był taki, że lepiej mi się rozwiązywało to zadanie później, po spacerze. No ale wracając właśnie do tego pomysłu. No i teraz co? No i czym jest rozumowanie?

K.G.: Pan na mnie nie patrzy, nie wiem.

B.N.: Ja też nie wiem. I teraz najgorsze jest to, że ludziom się wydaje, że matematycy mają jakiś patent na to, czym jest rozumowanie. No to ja mogę powiedzieć, jak wygląda patent matematyków na rozumowanie. Siedzę i czytam.

K.G.: Ale co pan czyta?

B.N.: Jakąś książkę matematyczną, tak? I co jakiś czas…

K.G.: A tam są zdania, czy tam są wzory?

B.N.: Zdania są i wzory są, tak. I sobie to czytam. W którymś momencie przeczytałem coś i się zastanawiam, tak? Czyli jakby prowadzę teraz sobie wewnętrzny monolog.

K.G.: Nakarmił pan swoją białkową sieć neuronową.

B.N.: Tak. No i mówię, o ciekawe, dlaczego na przykład ten wyznacznik tutaj wynosi tyle, a czy może się zdarzyć, że on na przykład, wyznacznik z tej macierzy, będzie dowolną liczbą rzeczywistą, tak? I powiedzmy, że tam jest jakaś macierz, jakieś parametry.

K.G.: Czyli wypuścił pan sobie jakieś rozumowanie i sobie pan testuje.

B.N.: I teraz sobie taką hipotezę wymyśliłem. I teraz mówię: hm, jak to mogę udowodnić? Co ja wiem o wyznacznikach? Podobnie jak model językowy, buduję sobie w głowie często, czasami na kartce, taki cały kontekst różnych zdań i pomysłów, które gdzieś usłyszałem, może coś sam wymyśliłem. Kiedy dochodzę do konkluzji, że już w sumie wszystko, co wiedziałem na ten temat, mi nie pomaga, to teraz przychodzi taka faza, ostatnio słuchałem ciekawego wywiadu z panem Ryszardem Szubartowskim, nauczycielem naszych informatyków, którzy między innymi w OpenAI pracują. No i on powiedział taką właśnie fajną rzecz, że jak już dochodzę do ściany z tym rozumowaniem, to on zachęca uczniów, żeby odpuścić. Matematycy też tak robią, że mówią, okej, dobra.

K.G.: Nie dzisiaj.

B.N.: Przerwa.

K.G.: Idę na spacer.

B.N.: No i właśnie to jest śmieszne, że teraz jest ta przerwa i coś się dzieje w mojej głowie w tej przerwie, czyli coś tam pewnie z hipokampem, jakieś różne procesy, że ja wracam, siadam nad tą samą kartką, dokładnie tak samo jak przed chwilą, zaczynam myśleć z powrotem i nagle w mojej głowie pojawia się idea, której tam wcześniej nie było. Ja bym powiedział: to jest właśnie to rozumowanie.

K.G.: To jest nasza ludzka czarna skrzynka. Nie wiemy, co to jest.

B.N.: Tak. I teraz: nie wiem, czy modele to mają. Wydaje mi się, że nie. To znaczy, że…

K.G.: No ale to wydaje się podobne z tym wypuszczaniem tych hipotez, tylko że one mogą więcej i szybciej.

B.N.: Z wypuszczaniem hipotez no to tak. Ale z samym wpadaniem na te dziury. To znaczy to, że my mamy już parę jakichś pomysłów, to jest okej, ale w którymś momencie musimy coś wymyślić nowego. I mieliśmy taki przypadek z FrontierMath, że model rozwiązał zadanie nie ścieżką, którą zaplanował autor. Czyli coś jednak wymyślił. To znaczy, no właśnie. Co to znaczy wymyślił? No skleił sobie ścieżki rozumowań w taki sposób, że to nie było oryginalne rozumowanie autora. Czy on to wymyślił? No jakoś tak, możemy powiedzieć, jest to napisane. Ale ja nie wiem, czy to jest to samo zjawisko, które powoduje, że jak ja wracam z tego spaceru, to tak jak ten pomysłowy Dobromir, mi ta piłeczka spada na głowę i jest nagle takie „już wiem, że o to chodziło”. I to jest fundamentalnie ta tajemnica, której myślę, że nawet jeżeli byśmy mocno zaczęli dociskać pytaniami wszystkich twórców systemów, oni powiedzą: nie wiem. Nie mam zielonego pojęcia, czy model językowy coś takiego potrafi. Ja mam wrażenie coraz częściej, że czasami tak.

K.G.: Że tam jest jakieś rozumowanie?

B.N.: Że akumulacja tej wiedzy, którą ten model daje, daje mi poczucie, że na pewno on wpada na coś, na co ja nie wpadłem. To przynajmniej tyle. Na przykład to, czego wydaje mi się, modele w ogóle nie potrafią nadal, to jest to, że my sobie popatrzymy na świat i prędzej czy później wymyślamy jakieś użyteczne abstrakcje, które stają się częścią opisu tego świata. Na przykład w ten sposób wpadliśmy na opis zwany teorią grawitacji Newtona, Einstein w ten sposób wymyślił opis mechaniki relatywistycznej. W matematyce jest takie pojęcie symetrii, które ewoluowało przez wiele tysięcy lat. Ludzie bardzo dobrze posługiwali się, tutaj są takie fajne płytki na ścianie.

K.G.: Sami kleiliśmy z Filipem.

B.N.: No właśnie, i te płytki mają symetrię trójkrotną albo sześciokrotną. Możemy nawet łatwo wskazać gdzie, prawda?

K.G.: Dla mnie to jak plaster miodu, ale to…

B.N.: A ja na to patrzę, że tam jest grupa. I teraz właśnie to pojęcie grupy, tej symetrii, to jest coś, co potrzebowało wiele tysięcy lat, żeby w XIX wieku matematycy w końcu napisali to jako taką precyzyjną, matematyczną definicję. My sobie wyobrażamy, że modele językowe rozumują, a ja bym powiedział, że one już wykorzystują te pomysły, które myśmy im dali. I teraz pytanie jest takie: czy taki model w którymś momencie, jak już wyczerpie cały wachlarz pomysłów, które gdzieś tam miał, czy w następnym etapie z tej wiedzy, którą ma, wytworzy coś nowego? Ja tego nie widzę. To znaczy…

K.G.: Tego nie?

B.N.: Nie. Wydaje mi się, że tego chyba nie ma na razie. Jakieś tam ślady rozumowania na zasadzie takiej skojarzeniowej, że ten model z tych wag potrafi wykonstruowywać takie fragmenty czegoś, co już było. I to nam daje zaskakująco dobre efekty, bo nawet, powiedzmy szczerze, jak się pisze rozumowania, to się często powtarza wiele schematów. To w programowaniu też bardzo często się pojawia, że te modele pomagają w programowaniu, dlatego że większość kodu, mówi się, że to jest taki boilerplate code. Że to jest taki kod, który jest konieczny, ale oczywisty, i to się pisze praktycznie automatycznie. Nawet w rozumowaniach matematycznych jest dużo fragmentów, które prawie że na takim autopilocie są.

K.G.: Taki szkielet jakby.

B.N.: Tak. Ale w którymś momencie dochodzimy do momentu, że trzeba coś nowego wymyślić. Tego nie było w dotychczasowej wiedzy.

K.G.: A nie możecie dać tym modelom tych problemów naukowych, matematycznych, które są tam od dekad nierozwiązane, i powiedzieć: no to wy to ogarnijcie?

B.N.: Od razu powiem, że FrontierMath 4 to jeszcze nie jest ostatni etap. Teraz brałem udział w takim kolejnym projekcie, który niedługo będzie ujawniony, i tam już się pojawiają problemy otwarte matematyczne. Nikt, nawet człowiek, nie ma jeszcze żadnego pojęcia, jak to rozwiązać. Czyli my chcemy teraz pytać modele już nie tylko o te rzeczy, które my wiemy, jak na nie odpowiedzieć, ale o takie rzeczy, które my nie wiemy, jaka jest prawidłowa odpowiedź.

K.G.: Czyli żeby były ponad matematyką współczesną.

B.N.: Tak, ale ich odpowiedź da się zweryfikować. Czyli są na przykład pytania matematyczne, gdzie my do tej pory nie wiedzieliśmy, jak na nie odpowiedzieć. Na przykład takie ciekawe pytanie o parkietaż, tak zwany parkietaż aperiodyczny. Czyli że mam płytkę i jakkolwiek bym tą płytkę łączył z kolejnymi, które są tego samego kształtu, pokryję całą płaszczyznę, ale nigdy, to było pytanie, ale nigdy nie pojawi się tam żaden wzorzec, który w taki sposób translacyjny będzie się powtarzał, tak jak te płytki tutaj na ścianie. To było pytanie otwarte jeszcze dwa lata temu i taki matematyk amator, poligraf David Smith znalazł ten kształt. Ten kształt właśnie to jest ta aperiodyczna płytka. Rok temu ona została jeszcze zmodyfikowana tak, że mamy, to się nazywa spectre, ten kształt, taki duch jakby. Matematycy udowodnili, że pokrycie płaszczyzny tym kształtem jest możliwe, ale na pewno nie ma w tym prostych, powtarzalnych, regularnych wzorców. Akurat dlaczego o tym mówię, ponieważ ten problem, nad którym pracuję i który będzie też w tym nowym benchmarku, właśnie wiąże się dokładnie z takimi intuicjami, że chcemy zadawać pytania modelom, gdzie one będą w stanie nam udzielić odpowiedzi. I teraz w momencie, kiedy one udzielą nam tej odpowiedzi, będziemy mieli jasny, prosty mechanizm weryfikacji, który nam powie, że one dobrze rozwiązały tą hipotezę. Czyli to są pytania już w tym momencie, gdzie nie ma odpowiedzi. My nie wiemy, czy odpowiedź w ogóle istnieje, ale wiemy, że jeżeli odpowiedź istnieje, to daje się szybko sprawdzić.

K.G.: No właśnie, to mnie interesuje, czy będzie się dało zweryfikować, jeśli któryś z tych modeli, na przykład, znajdzie rozwiązanie na którychś z tych problemów, wychodząc, będąc tak beyond, tak mi się kojarzy, wybaczcie, moja sieć białkowa tak podpowiedziała, no tak ponad współczesnych matematyków, to czy którykolwiek czy którakolwiek z was będzie w stanie to zweryfikować, czy to ma ręce i nogi?

B.N.: Tak. Bo układamy takie pytania właśnie, żeby one były weryfikowalne.

K.G.: Ale jak, skoro nie umiecie rozwiązać tego problemu?

B.N.: No to powiedzmy przykładowa taka sytuacja. Zapisuję równanie za pomocą symboli XYZ i pytam się, czy istnieje ciąg liczb, który spełnia to równanie. I na ogół tego typu problemy są ekstremalnie trudne. To znaczy czasami można pokazać, że na przykład rozwiązania nie ma, tak jak wielkie twierdzenie Fermata. To jest często niezwykle trudne. Ale są sytuacje, gdzie takie dziwne równania diofantyczne mają rozwiązanie. Może podam taki jeden konkretny przykład, który opisywałem rok temu w „Delcie” jako takie zadanie dosyć ciekawe. Biorę sobie trójkę liczb x, y, z. Wszystkie są trzy dodatnie. I mówię teraz tak, żeby x podzielone przez y plus z, plus y podzielone przez x plus z, plus z podzielone przez x plus y, czyli jakby tak po kolei, było równe 4. Pytam się, czy istnieje rozwiązanie tego równania. I odpowiedź, zachęcam do przeczytania artykułu w „Delcie”, jest pozytywna, ale najmniejsze rozwiązanie w sensie długości cyfr, liczby cyfr, to jest 81-cyfrowe. Czyli nie ma szansy, żeby na komputerze to rozwiązanie znaleźć. Jest bardzo fajna metoda…

K.G.: Dlaczego nie ma szansy?

B.N.: No bo żeby przejść przez wszystkie możliwości liczb aż do 81 cyfr, nie ma szans, nie ma szans. Maksymalnie nie wiem, możemy rozwiązania pięciocyfrowe ewentualnie prześledzić. No to teraz pytanie, skąd ja wiem, że istnieje rozwiązanie 81-cyfrowe? No to okazuje się, że jeśli popatrzy na ten problem, to jest problem, który można przeformułować jako na problem geometryczny związany z czymś, co się nazywa krzywą eliptyczną. I istnieje rozwiązanie mniejsze, ale ono ma współczynniki ujemne też. Ale istnieje operacja geometryczna, która pozwala nam przechodzić po różnych rozwiązaniach, aż w końcu trafimy, i to jest jakby dokładnie opisane w tym artykule w „Delcie”, do rozwiązania dodatniego. I teraz: jeżeli ja bym dał to rozwiązanie od razu, w sensie podał te liczby, to ktoś, kto ma moje równanie, natychmiast zweryfikuje poprawność odpowiedzi. No bo wystarczy podstawić, to się robi szybko. Tak samo na przykład jeżeli ktoś nam poda dużą liczbę, powiedzmy ta liczba ma tysiąc cyfr, i wiemy, że ona jest iloczynem dwóch liczb pierwszych, i to jeszcze takich, żeby były mniej więcej tej samej wielkości, no to nie jest łatwo nam znaleźć te czynniki. Ale jak ktoś nam poda te czynniki i je pomnożymy, to łatwo sprawdzimy odpowiedź. Idea tych otwartych problemów, o których mówię, polega na tym, że to są takie specjalne sytuacje, problemy, gdzie da się w szybki, wiarygodny sposób sprawdzić, że jeżeli ktoś nam podał kandydata na rozwiązanie, to ja sprawdzam i wiem, że to działa. Idea polega na tym, że to jest trochę jak z tymi liczbami wcześniej, tylko sztuczka polega na tym, że my… Na przykład jedno z zadań, które przygotowałem, polega na tym, że my w sumie nie wiemy, czy w ogóle taka odpowiedź istnieje. Jeżeli model mi kiedykolwiek poda odpowiedź, to ja bym powiedział, że to jest natychmiastowy przełom naukowy. Bo model dał mi odpowiedź na pytanie, które było otwarte. Ciekawa rzecz jest taka, że w momencie, kiedy model daje odpowiedź, musiało się coś w środku wydarzyć. Więc tym bardziej jeżeli daje odpowiedź na pytanie otwarte, no to ja bym chciał wiedzieć, co on tam w środku zrobił.

K.G.: A kto to wie?

B.N.: No, możemy ten cały transkrypt tego rozwiązania wtedy przeczytać i zobaczyć rzeczywiście, czy ten nowy benchmark będzie takim trochę badaniem naukowym, które być może nam pozwoli lepiej zrozumieć, co się dzieje w tych modelach.

K.G.: A kiedy to będzie realizowane?

B.N.: Teraz aktualnie są te zadania przygotowywane i chyba do końca roku, wydaje mi się, że w styczniu pewnie będzie to ujawnione.

K.G.: Już będą wyniki?

B.N.: Znaczy będą te pytania. Różnica będzie taka, wszystkich rzeczy nie mogę zdradzać jeszcze, ale będzie taka, że te zadania będą publiczne, więc każdy będzie mógł się zmierzyć z tymi zagadkami, nie tylko LLM-y, ale też prawdziwi ludzie. Trochę jakby jest, powiedzmy, lista problemów milenijnych. To są takie bardzo znane hipotezy matematyczne. Ale problemy milenijne są niezwykle skomplikowane i trudne do rozwiązania. Co prawda, jeden już został, hipoteza Poincarégo w wymiarze 3 została rozwiązana przez Grigorija Perelmana. Natomiast te zadania, o których ja mówię, one trudno powiedzieć. Część tych zadań naprawdę jest bardzo trudna. Problemy, które są czasami mniej lub bardziej znane od wielu lat, mają właśnie łatwo weryfikowalną odpowiedź. Jeżeli już model udzieli odpowiedzi, to my sprawdzimy, no i zobaczymy. Ja jestem, że tak powiem, bardzo ciekaw, co się wydarzy, bo spodziewam się, że jeżeli firmy i laboratoria zaczną się specjalizować w próbach rozwiązania takich problemów, to jakiś przełom naukowy może się wydarzyć wtedy, więc to może być bardzo ciekawe.

K.G.: Ale to co wtedy będzie? Taka matematyka tworzona ponad matematykami? Rozumiana przez was w ogóle?

B.N.: Parę dni temu opublikowałem taki wpis na X, na Twitterze, pokazujący, że można w pewnym sensie już tworzyć matematykę trochę bez matematyków. Czyli że da się napisać całą publikację naukową i może nie jakiś wielki, ale jakiś nietrywialny wynik, gdzie z jednej strony model językowy coś mi tam da jakiś pomysł, jest drugi model językowy, który formalizuje ten dowód, dostaję jakby formalny dowód matematyczny, to wszystko jest weryfikowalne. Ja tu jestem w roli takiego pasterza, hodowcy, nie wiem jak to określić nawet. Może nawet…

K.G.: Trenera?

B.N.: Ja nie trenuję modeli. Ja bardziej raczej wykorzystuję już istniejący model, daję mu pomysł, prompt i czekam na odpowiedź, czekam na efekt. To zadawanie promptu to jest też nietrywialna sprawa. Ale to co pokazały mi te ostatnie dni, to że to się da zrobić. Teraz pytanie, co to jest właściwie? Ja się nie czuję już autorem tego. Jestem niewątpliwie autorem tego prompta, zadałem to właściwe pytanie. Model, który się nakarmił danymi od człowieka, rozwiązał to zadanie. Napisał publikację całą naukową, sześciostronicową, na ten temat. Wszystko jest w pełni udokumentowane. Myślę, że to jest jakiś początek nowej ery. W sensie to jest na tyle świeże, że nie mam tego w głowie poukładane, ale myślę, że to jest taki moment, że możemy zacząć myśleć, że na serio prędzej czy później jakieś algorytmy będą tworzyły równoległy do nas świat. Nie wiem, czy one będą umiały zadawać właściwe pytania, żeby to na przykład… Cały czas na to czekam, czekam czy nie czekam, ale spodziewam się, jeżeli to się wydarzy, to będzie takie wow, że ktoś skonstruuje model, który popatrzy sobie na świat i powiedzmy nakarmimy go danymi takimi, które w ogóle nie dotyczą współczesnej cywilizacji, i on sobie na przykład sam wymyśli ogólną teorię względności. Na zasadzie takiej o, to wszystko, co tutaj się nauczyłem, wskazuje, że świat działa w taki sposób i my patrzymy, może niedokładnie tymi samymi słowami, patrzymy, no jest. Wszystko napisał, transformację Lorentza i tak dalej, czyli zbudował cały język, którego potrzebowali ludzie, aż do roku 1900 mniej więcej trwało to, zanim na to wpadliśmy. No i taki model jakby wykonstruuje coś, co nas w ogóle zachwyci, tak? Albo jeszcze lepiej, na przykład model zaproponuje jakiś ciekawy, oryginalny problem, którego do tej pory nikt nie badał, i go sam rozwiąże. Chyba jeszcze trochę czasu do tego nam potrzeba, aczkolwiek warto zdać sobie sprawę, że tempo rozwoju tych modeli jest tak szalone, że to, o czym ja mówiłem przed chwilą, te formalizacje, no to w zasadzie są rzeczy, które się dzieją od kilku tygodni. Jeszcze powiedzmy pół roku temu takich rzeczy nie było. W maju została rozwiązana olimpiada matematyczna, potem międzynarodowa olimpiada informatyczna.

K.G.: Przez modele.

B.N.: Tak, przez modele. I te modele na początku, no to były modele takie zwykłego rodzaju, które generowały te swoje takie halucynacje, czyli to taki był dowód, taki bym powiedział…

K.G.: Dla mnie to jest takie na odczep się trochę. „Daj mi spokój”.

B.N.: Trochę tak. Ale teraz te najnowsze modele, one dają certyfikat, czyli jakby udokumentowują, no tak jak można powiedzieć… W matematyce jest tak, jakbyśmy grali w jakąś zaawansowaną grę planszową. Mamy mistrza gry, on nam daje podręcznik, mówi: słuchajcie, możecie robić wszystko, ale dokładnie według tych reguł. No i teraz ktoś sobie tak patrzy, mówi: o, ja uważam, że tu się nie da dojść do, powiedzmy, jakiejś tam planszy ze studnią. A mistrz gry mówi: dlaczego? No i teraz ta osoba mówi: no zobacz, jeżeli używasz twoich zasad, to możesz tylko tak skakać, tak skakać, nigdy nie wskoczysz na pole tam o jakimś, na przykład, nieparzystym indeksie. I to jest dowód matematyczny. W tym sensie model językowy, taki zwykły, taki Chat GPT, co by zrobił, to by powiedział: „czuję, że tutaj się nie da dojść”. No ale ja go dopytuję: a dlaczego tak czujesz? No bo tutaj są takie pola i na tych polach jak się skacze, to tutaj się przechodzi. To jest takie machanie rękami, to nie jest konkret. Teraz te najnowsze modele zrobiły ten właśnie krok, że one budują matematyczne rozumowanie jak program komputerowy, taki formalny program komputerowy, i teraz magia matematyki polega na tym, że jak się ten program, czyli ten sformalizowany dowód, skompiluje w odpowiednim kompilatorze, to on mi daje gwarancję, że to jest poprawnie. Muszę jedynie wiedzieć, że ten nagłówek, czyli jakby to twierdzenie, jest dobrze sformalizowane, ale w pewnym sensie dostaję certyfikat, że to jest prawdziwe. No i te modele zaczynają to powoli robić.

K.G.: Mnie w tym wszystkim interesuje, jeśli na przykład te modele zaczną tworzyć właśnie rozwiązania problemów, których wcześniej matematykom nie udało się rozwiązać, to jakoś wydaje mi się kluczowe czy krytyczne to, żeby matematycy dalej rozumieli, co tam się dzieje. Tak jak większość populacji łącznie ze mną dokładnie nie rozumie, jak działa cały ten internet, że to wszystko gdzieś tam sobie fruwa i możemy ze Stanami Zjednoczonymi czy z Chinami w ciągu iluś tam opóźnienia minimalnego rozmawiać się na żywo. Dokładnie to nie wiem, jak to działa, ale uspokaja mnie, że są ludzie, którzy wiedzą.

B.N.: Niektórzy tak. Ja na przykład nie wiem, jak działa większość dowodów matematycznych.

K.G.: Okej, no ale są ci ludzie, którzy to rozumieją.

B.N.: Wierzę, że ci ludzie są.

K.G.: No dobra, ale nie jest to jakieś takie drażniące, taka wizja, że może być właśnie, no nie powiem umysł sztuczny, ale jakieś oprogramowanie, właśnie ta sztuczna inteligencja czy model językowy, który wytworzy rozumowanie matematyczne jakiegoś problemu, rozwiąże to, a nie będzie żadnego człowieka, który będzie to rozumiał. Będzie mógł powiedzieć tak albo nie, to jest poprawne, albo nie widzę, że tak jest, ale nie rozumiem dlaczego.

B.N.: Wbrew pozorom nie jest to aż tak dalekie od bieżącej praktyki matematycznej. To znaczy czasami jest tak, że…

K.G.: Czy wasza specjalizacja jest tak głęboka?

B.N.: Tak, są takie dowody matematyczne, które mają, jak się zbierze wszystko razem, to mają 10 tysięcy stron. Czyli od takiego powiedzmy poziomu, że jestem wykształconym, wyedukowanym matematykiem z doktoratem, do zrozumienia tego dowodu matematycznego trzeba przebrnąć przez dziesięć tysięcy stron gęstej matematycznej dokumentacji, gdzie praktycznie każde zdanie oznacza zastanawianie się nad jakimś dosyć nietrywialnym faktem.

K.G.: To to jest nierealne. To kto napisał te dziesięć tysięcy stron?

B.N.: No właśnie, to jest tak, że jest na przykład jakieś znane twierdzenie, powiedzmy hipoteza Weila, to dotyczy geometrii algebraicznej, takie dosyć ciekawe twierdzenie, które w pewnym sensie nam mówi, że jak mamy wielomiany i liczymy liczbę rozwiązań nad resztami, modulo p, gdzie p jest liczbą pierwszą, to jest jakaś porządna regularność w tych wszystkich rzeczach. To wbrew pozorom… Brzmi dość abstrakcyjnie, ale to ma bardzo konkretne zastosowania w kryptografii, którą używamy w telefonach. No i teraz się okazuje, że te hipotezy Weila, one zostały udowodnione w kawałkach przez różnych matematyków, gdzie ostatni z tych kawałków, najtrudniejszy, taka wersja hipotezy Riemanna nad ciałem skończonym, udowodnił Pierre Deligne, belgijski matematyk. Udowodnił to w ten sposób, że wziął pewne klocki matematyczne, które już były wytworzone przez poprzednika jego, przez Alexandra Grothendiecka. Grothendieck skonstruował wiele rzeczy w tej dziedzinie, które pomogły Deligne’owi zrobić ten kolejny krok. No i teraz jak popatrzeć na to, co zrobił Grottendieck, Deligne i tak dalej, to jak się zbierze całą tę matematykę do kupki razem, to jest około 10 tysięcy stron. Naprawdę żeby zrozumieć, jakbyśmy teraz zaczęli rozmawiać sobie, tak jak teraz rozmawiamy, i zaczęlibyśmy od tego, że ustalimy, że razem rozumiemy liczby naturalne, to już jest dobry początek. No to tak potrzebujemy z dobrych 5 lat, bym powiedział, intensywnego bardzo wysiłku, żeby dojść do mniej więcej zrozumienia tego, jak wygląda ten dowód. I to nie jest oderwana sytuacja, ja bym powiedział. Duża część problemów matematycznych aktualnie udowadnianych w różnych pracach operuje na takim poziomie, że one korzystają już z prac poprzedników i poprzedników. I to jest mnóstwo wiedzy. Ja dlatego się cieszę w pewnym sensie, że takie algorytmy, które będą rozwiązywały problemy matematyczne, powstają, bo skąd ja wiem, że po kolei wszyscy ci ludzie, którzy pisali te prace, nie pomylili się? I okazuje się, że mamy przypadki, że się mylili. I to mylili się fundamentalnie. Nie że coś było tylko trochę nieprawdziwe.

K.G.: I co, potem na takim zepsutym dowodzie, takiej zmurszałej cegle był budowany kolejny…

B.N.: Tak, ostatnio właśnie wyszła taka sytuacja w związku z tym, że jest taka grupa matematyków w Imperial College, której przewodzi Kevin Buzzard, to jest taki matematyk zajmujący się teorią liczb. I on ostatnio zaczął się bardzo intensywnie interesować formalizowaniem dowodów matematycznych, ale nie w takim sensie, że ktoś kiwa głową i mówi, że to jest okej, tylko że naprawdę, tak jak Hilbert miał taką wizję, piszemy to wszystko z aksjomatów i próbujemy to udowodnić. I tutaj to wspieramy się właśnie tym językiem programowania Lean, w którym możemy te dowody zakodować. I się okazało, że podczas tego projektu, który trwa, formalizacji wielkiego twierdzenia Fermata, znaleziono fragment teorii, który był tylko raz udokumentowany w doktoracie jednego z matematyków francuskich w latach 60. czy 70. No i po głębszej inspekcji, jak matematycy spróbowali to jakby zakodować, sformalizować, się okazało, że cały ten doktorat jest niepoprawny. W sensie te twierdzenia prawdopodobnie są poprawne, a przynajmniej zgodne z tym wszystkim, co wiemy, natomiast dowody były całkowicie błędne. I sytuację uratował inny matematyk amerykański, Brian Conrad, z którym jak się Kevin Buzzard skontaktował, to Brian Conrad powiedział, no wiesz, tak, rzeczywiście, tak mi się wydawało, że ten doktorat jest jakiś taki podejrzany, więc na wszelki wypadek udowodniłem sobie sam te rzeczy. No i jak Kevin Buzzard wziął te notatki Briana Conrada i je zakodowali w Leanie, to się okazało, że dowód się dopiął. Ale przez ostatnich 30 lat, tak, od roku 1995 minęło już 30 lat, kiedy Andrew Wiles w tych okolicach udowodnił wielkie twierdzenie Fermata, nikt nie podejrzewał, że kohomologię krystaliczną, o tym dokładnie mówię, że tam jest jakiś błąd w podstawowych twierdzeniach, że twierdzenia mogą być poprawne, ale uzasadnienie, że tak ma być, to było bardziej nasze oczekiwanie. No więc ja z tej perspektywy się cieszę, bo jeżeli dostanę narzędzie…

K.G.: Ale to będzie wielka weryfikacja?

B.N.: Tak, tak. Pracuję teraz właśnie nad takim projektem, gdzie biorę prace matematyków, teraz akurat wziąłem na warsztat prace moich kolegów, i je formalizuję. I pokazuję, że za pomocą tego narzędzia Arystoteles, którego używam, jestem w stanie sformalizować w pełni taki normalny artykuł naukowy, jak się pojawia na arXiv. Czyli to pokazuje pewnego rodzaju kierunek, że teraz ja nie muszę ufać mojemu koledze. Nie muszę spędzać teraz dwóch tygodni, czytając ze szczegółami jego artykuł. Też się mogę pomylić. Ale dostaję takie narzędzie i testuję narzędzie, którym jestem w stanie pokazać, że może ja nie rozumiem szczegółów, ale jeżeli wiem, że nagłówki się zgadzają, czyli jakby ta formalizacja dokonuje się, jest prawidłową rzeczą, to w momencie kiedy ten dowód zostaje skompilowany, ja mam pewność, że to jest przynajmniej prawdziwe. To się aktualnie dzieje w tym momencie.

K.G.: To jaka będzie rola matematyków w takim razie w sytuacji, kiedy okaże się na przykład, że te modele faktycznie są w stanie rozwiązywać problemy, których wcześniej ludzie, matematycy nie byli w stanie rozwiązać? Albo wręcz tworzą czy stawiają przed nami kolejne problemy, na które wcześniej nie wpadliśmy? To co będzie wtedy robił Bartosz Naskręcki?

B.N.: Nie wiem, może będę kosił trawę. A serio powiem tak: wydaje mi się, że ta wizja jest trochę niejasna dla mnie. To znaczy niejasne jest dla mnie właśnie to podstawowe pytanie, że te modele mają coś nowego wymyślać. Na razie to, co mówiłem, to one świetnie nas uzupełniają. Żeby one coś wymyślały, to ja sobie wyobrażam, że my chyba… Znaczy chyba nie LLM-y w żadnej wersji, rozumującej czy nierozumującej. Coś nowego jeszcze musi powstać. Coś takiego, co… To jest główne pytanie i ja powiem szczerze, że nie wiem. Nie mam zielonego pojęcia, czy w najbliższym czasie zobaczę algorytm, który wymyśla coś szalenie oryginalnego. Niektórzy mówią, że na przykład ten algorytm, który gra w go i który pokonał Lee Sedola, ten słynny ruch 37, że to było coś nowego. Ale to nie jest to samo. W matematyce chodzi o wymyślanie fundamentalnie nowych koncepcji. Mamy takie wielkie programy badawcze, na przykład program Langlandsa, jakieś problemy związane z rozwiązywaniem na przykład właśnie równań Naviera-Stokesa i mnóstwo różnych innych problemów. Nawet taka prosta hipoteza Collatza, gdzie mamy po prostu funkcję, w której mówimy tak, że zaczynamy od liczby. Jeżeli ta liczba jest parzysta, to dzielimy ją przez dwa. Jeżeli liczba jest nieparzysta, to wyliczamy sobie, mówimy, że mnożymy tą liczbę przez 3 i dodajemy 1. No i teraz pytanie jest takie, czy startując od dowolnej liczby, zawsze wrócę do jedynki? I póki co, jak ludzie to próbowali robić, za każdym razem wracało do jedynki. Ale my nie wiemy, czy to jest prawdziwe. Pytanie jest takie: czy ta hipoteza potrzebuje jakiegoś nowego pomysłu? Czyli jakby na coś trzeba nowego zupełnie wpaść czy nie wiem, na przykład okaże się, że to da się przeformułować geometrycznie i w tej geometrii się coś pojawia i tak dalej, i tak dalej. Pytam często Chata GPT albo inne modele. Mówię: słuchaj, tu masz taki problem, rozwiąż. I często odpowiedź, którą dostaję, jest taka: no jeżeli tutaj się skojarzy z tym i z tamtym, to coś tam. I on radzi sobie w sytuacji, gdzie, że tak powiem, on już był w tych parafiach i już to kojarzy, ale jeżeli stawiam przed nim zupełnie otwarty problem, to teraz ostatnio kilka dni temu taki prompt wpuściłem, no to Chat GPT myśli przez dwie godziny i na końcu zwraca mi: poddałem się. Jak prawdziwy matematyk, nie? Myślę, że ta dynamika jest też tak duża, że jestem w stanie nawet, powiedzmy, uwierzyć, że być może w przyszłym roku, może nawet za dwa lata, może dziesięć, trudno powiedzieć, może się coś takiego pojawić. Jak ktoś by mi zadał pytanie w 2021 roku, nawet w 2022 roku, czy w 2025 roku jestem w stanie uwierzyć, że będę miał algorytm, który razem ze mną będzie pisał i formalizował moje prace matematyczne, to bym się popukał w czoło i powiedział „mhm, jasne”. No ale to się wydarzyło i to się wydarzyło w 3 lata. Z tej perspektywy na pewno jest duży potencjał, bo ludzie zauważyli, że to się da, że pewne rzeczy daje się robić, więc to już jest taki pierwszy krok w tym kierunku. Są pewne analogie, na przykład jak pomyślimy sobie o tym, jak się rozwijały komputery osobiste, jak się skalowała prędkość komputerów, to mamy to tak zwane prawo Moore’a, że tam co 18 miesięcy podwaja się jakaś tam wydajność liczona w jakiś obiektywny sposób bitowo tych procesorów. No i ludzie nawet zaczęli wierzyć, że to jest jakieś prawo fizyki, no ale to jest nic innego, jak tylko to, że co 18 miesięcy inżynierowie tak intensywnie pracowali, że zdarzał się cud, że zbudowali lepsze architektury. I w pewnym sensie jak patrzymy na to, co się dzieje teraz z LLM-ami, z AI i tak dalej, to po prostu to jest wynik bardzo ciężkiej pracy bardzo wielu ludzi, inteligentnych, niesamowicie utalentowanych inżynierów i programistów, i matematyków, i fizyków. Mnóstwa ludzi, którzy wiedzą, że pewne rzeczy jak się połączy, to coś może wyjść, i próbują. No i to się dzieje jakby tak organicznie.

K.G.: A to jeszcze może rozwiniemy ten wątek LLM-ów i LRM-ów, bo to jest troszkę coś innego. Pan to rozdzielił w pewnym momencie, że to te klasyczne modele językowe i rozumujące?

B.N.: No to te rozumujące, to jest to dodanie właśnie tego notatnika.

K.G.: To jest to, o czym mówiliśmy.

B.N.: Ja czasami to mówię, to jest tak, jak mówi się do ucznia „zastanów się”. I to jest ciekawe, bo mamy taką fajną książkę noblisty Daniela Kahnemana o myśleniu w stylu system 1, system 2. Że LLM to jest trochę jak ten system 1, tak trochę, czyli na zasadzie takiej, że on daje pierwszą odpowiedź, która mu przyjdzie do głowy.

K.G.: To też jest ekonomiczne, prawda?

B.N.: Ekonomiczne, szybsze, czasami skuteczne, ale już nawet na prostych pytaniach typu „ile jest 2 plus 2” to taki model 2 plus 2 jeszcze nam odpowie, bo to jest dosyć często pojawiająca się fraza. No ale 227 plus 3598 – raczej mała szansa, że nam odpowie. I tak się rzeczywiście dzieje.

K.G.: Ja kiedyś poprosiłam, żeby system dziesiętny mi tam przeliczał z cyferek na „powiedz, że to jest 1,3 milionowa” czy coś takiego, i się kompletnie mylił. Rzadkie to widocznie. Ja oczekiwałam, że on sam sobie to prze… On. Że sobie to przeanalizuje i mi policzy, ale ewidentnie przeszukiwał po prostu, jak to było.

B.N.: Nie, nie, on nic nie przeszukuje, on po prostu generuje te wagi, tego czuja robi.

K.G.: Czyli wyglądało mu to na tyle?

B.N.: Ten model sobie poradzi w momencie, kiedy napisze sobie kod w Pythonie, a to już potrafi robić. Wstawi te liczby, wykona ten kod w Pythonie niezależnie od modelu językowego i zwróci nam odpowiedź. To się nazywa function calling. Bo to jest tak, jak model ma bardzo małe wzmocnienie na jakąkolwiek odpowiedź, to może mieć właśnie taki specjalny mechanizm, który spowoduje, że on na przykład właśnie napisze sobie kod komputerowy. I teraz okazuje się, że napisanie kodu komputerowego jest dla niego dużo łatwiejsze niż odpowiedź bezpośrednia, a to jest trochę podobnie do nas. My też np. znamy tabliczkę mnożenia, niektórzy w zakresie nawet do 20, ale jak zapytamy się o to, jak dwie trzycyfrowe liczby pomnożyć, to większość z nas sobie przypomni: „o, był taki algorytm w szkole”, i zaczynamy rozpisywać sobie tą tabliczkę mnożenia i tworzymy cały ten schemat rozumowania, nie w naszej głowie, tylko na naszej kartce. I model też tak potrafi eksternalizować. LRM-y to są modele, w których ta eksternalizacja tych rozumowań jest posunięta do skrajności. Czyli one zanim wydadzą jakikolwiek osąd, to właśnie produkują mnóstwo różnych takich pomysłów na rozwiązanie i próbują ocenić, która z tych wersji będzie tą ostateczną.

K.G.: Skoro one są już w pewnym sensie w stanie rozumować, pan kiwa głową, czy to jest coraz bliżej do świadomości?

B.N.: Ojej.

K.G.: No ja wiem, ale ja muszę zadać to pytanie, bo to wszystkim nam dzwoni w uszach.

B.N.: Powiem tak: po pierwsze nie wiem, czym jest świadomość. Po drugie myślę, że LLM-y za każdym razem, jak się je uruchomi na nowo, to wracają do swojego stanu początkowego. Czyli w tym sensie jak się im wymaże to okienko kontekstowe, oczywiście tam jest jakaś zmienność losowania tych tokenów i tak dalej, ale co do zasady to jest ten sam model. Mamy doświadczenie swoje własne, że u nas każda rozmowa w jakimś sensie wpływa na naszą świadomość. My to odczuwamy. No więc to jest moim zdaniem taki prosty, wewnętrzny test, że jeżeli ja to resetuję zupełnie, to jeżeli tam jest świadomość, to na pewno nie taka, jak aktualnie się u mnie gdzieś tam wykształciła. Czyli jakby każdy słuchacz teraz jak sobie zrobi taki eksperyment wewnętrzny, dotyczący własnego samopoczucia i tej świadomości, to będzie w stanie odkryć, że jednak jest czymś innym niż ten LLM. Jeżeli by, powiedzmy, pokusić się o taką tezę, że powiedzmy świadomość jest związana z jakimś kontrolowaniem pewnych procesów, to póki to okienko kontekstowe w tym Chacie GPT jest cały czas wypełniane i mamy na tym kontrolę, to tam może się coś takiego pojawić na zasadzie, że ten model wytworzy sobie jakiś taki wewnętrzny model interaktywny samego siebie nawet, do pewnego stopnia. To trochę jest takie naiwne, ale jakaś taka forma, nie wiem, takiej protoświadomości, że on na przykład, no teraz jak generuje te tokeny rozumowania, to może je sterować trochę, czyli może jakby wytworzyć je tak, żeby na przykład coś lepiej zrozumieć o tym, co ma w swoich wagach. To jest taka forma autorefleksji, czyli że generuje te kolejne tokeny tak, żeby wyciągnąć z siebie jeszcze więcej. No to w takim sensie tak, no ale mówię: jak znika ta pamięć, model staje się tym samym. Tu jest bardziej kwestia taka, że jak te modele są trenowane w kolejnych generacjach, no to one się zmieniają, więc nie wiem, może tam się jakaś świadomość buduje, ale to jest taka cały czas debata tocząca się właśnie, czym jest świadomość, i tych definicji świadomości, samoświadomości jest bardzo dużo. Ale ja bym powiedział może z innej strony, że czy modele są, czy nie są w jakimś sensie świadome, w sumie to nie ma większego znaczenia dla nas, bo jeżeli my jesteśmy w stanie ten model w pełni kontrolować, na przykład jesteśmy w stanie jakby sprawdzać, co się dzieje z tymi wagami, zmieniać i objaśniać, to te efekty, wydaje mi się, są takie mało ciekawe. To znaczy np. świadomość się wiąże też z pytaniem o problem bólu. Czy np. model można powiedzieć, że go coś boli, prawda? I to też jest ciekawe pytanie, bo w tym momencie gdzie ten ból by się miał pojawić? No musiałby się pojawić gdzieś na poziomie dynamiki tych tokenów, które on sobie generuje w tym oknie kontekstowym. Jeżeli to okno kontekstowe ma powiedzmy 100 tysięcy tokenów, to tam za dużo bólu się nie zmieści pewnie. Więc jeżeli takie efekty gdzieś tam się pojawiają, to one raczej są takie bardzo efemeryczne. Trudno mi powiedzieć. Powiem szczerze, że myślałem nad tym kilka razy, ale wydaje mi się to… Po pierwsze zupełnie jakby nie jest to w głównym nurcie moich zainteresowań teraz. A dwa, że tu by musiał powstać jakiś taki ciekawy mechanizm jakiegoś sprzężenia zwrotnego. Czyli że coś w tych tokenach… Na przykład można sobie wyobrazić taki eksperyment myślowy i pójdźmy w tą stronę. Widzimy, że modele językowe piszą programy. No to teraz wyobraźmy sobie sytuację, że model językowy napisze program na tyle skomplikowany, że on wytrenuje kolejny model. Czyli można powiedzieć, że ten model wytworzy zupełnie nowy model. Teraz jeżeli na przykład okaże się, że ten model jest w stanie ten nowy model wytworzyć tak, że on coś tam sobie poprawi, no to możemy powiedzieć, że zachodzi jakaś taka dynamika ciekawa, że teraz ten nowy model w pewnym sensie będzie lepszy i on coś przekazuje do tego kolejnego modelu, jakąś taką dynamiczną reprezentację tej wiedzy, którą miał, i to coś się poprawia. Tu dochodzimy do jakiejś ewolucji, tutaj te modele mogłyby teraz ze sobą w jakimś sensie konkurować, czyli np. robimy ileś modeli i każemy im odpowiadać na pytania, albo one ze sobą rozmawiają i jakoś tam eliminujemy modele, które są niepożądane. Igrzyska śmierci. W takiej dynamice coś na kształt świadomości być może się może wytworzyć, tylko pamiętajmy, że wytrenowanie takiego jednego Chata GPT to jest pół roku i pewnie z 50 milionów dolarów, więc ta dynamika jest trochę za wolna. Myśląc jakby o człowieku i o tym, że my jakąś tam formę świadomości swoją odczuwamy, no może właśnie tak jest, że potrzebujemy takiej dynamicznej ewolucji pomiędzy modelami i dać im szansę, żeby one właśnie wchodziły w takie interakcje. No bo bez interakcji trudno mi sobie wyobrazić, że coś, co ma ewidentnie pewną strukturę dynamiczną, a świadomość ma strukturę dynamiczną, da się wytworzyć w takim algorytmie.

K.G.: Świadomość też jest w kontekście, jednak jest zanurzona w ciele, przynajmniej taka jaką znamy, ma dostęp do rzeczywistości i tak dalej.

B.N.: Wydaje mi się, że kluczem jest ta dynamika, to znaczy, że modele nie będą robiły niczego kognitywnie ciekawego, dopóki nie pozwolimy im wchodzić w różne interakcje. Raz, że ze sobą samymi, czyli na przykład że model będzie swoje własne wagi modyfikował. Tego model nie może zrobić. Ani nie może wejść w bardzo skomplikowane relacje. Do pewnego stopnia są takie przykłady, gdzie ludzie uruchamiają dwa czaty i każą im ze sobą rozmawiać. I tutaj się pojawiają ciekawe sytuacje, że na przykład po pewnym czasie te modele potrafiły przejść na jakąś reprezentację, która zupełnie nie przypominała ludzkiego języka, że jakby znalazły taki optymalny kanał komunikacji, który był oderwany od naszych typowych form wypowiedzi. Więc idąc tym tropem dalej, jeżeli teraz bym powiedzmy połączył 100 takich modeli w jedną sieć i dał im szansę komunikować się ze sobą, to mogę powiedzmy zaryzykować tezę, że tych 100 modeli z tym ich oknem kontekstowym i z tą dynamiką pomiędzy sobą może wytworzyć jakąś formę takiej świadomości, czyli czegoś, co będzie sterowało tymi modelami, ale nie będzie jedynie częścią, komponentem żadnego z tych systemów.

K.G.: Jeszcze tak sobie myślę, że to jest marzenie ludzkości od dawna, żeby mieć taką maszynę, której można zadawać pytania. Szkoda, że nie ma Lema z nami. To jest bardzo interesujące, co by tam wpisywał.

B.N.: Oj tak! Golem 14.

K.G.: Słuchałam pana wystąpienia na ten temat właśnie w internecie, bardzo wam polecam. I to jest chyba to, co do nas należy, dobre promptowanie. W tym sensie, jakie dobre pytanie możemy zadać maszynie, a jakie pytania są na przykład bez sensu. Bo nie wiem, czy kiedyś AI odpowie mi na pytanie o sens życia? Mam głębokie wątpliwości w tej sprawie, ale może.

B.N.: Może odpowiedź będzie też 42. To jest w ogóle ciekawa sprawa z tym 42. Jak kiedyś czytałem tę książkę, jeszcze przed LLM-ami, to jakoś tak: no, ciekawy koncept. Ale teraz jak sobie pomyślałem, rzeczywiście jak się zada takie pytanie takiemu skomplikowanemu modelowi, to on gdzieś tam, w tych embeddingach coś tam się wytworzy i to jest rzeczywiście bez sensu pytanie, no bo my nie wiemy, o co pytamy. To jest tak, jakbyśmy zapytali Chata GPT, jak mam dobrze żyć.

K.G.: No to zacznie jakieś banały wypisywać z poradników.

B.N.: Opowie nam średnią tego, czego… Ale jak teraz powiemy, słuchaj, jeżeli w życiu mam powiedzmy ułożyć płytki na dachu i dach ma 45 stopni, ten dach jest poddawany, nie wiem, śniegowi, co byś mi doradził? No to on nam napisze, że na przykład tam jakaś blachodachówka, tak? To teraz wymyślam. I to jest realna porada na życie, prawda? Bardzo konkretna. Ja czasami nawet zadaję takie właśnie pytania Chatowi, typu: teraz ostatnio przed domem przyszedł mi bóbr i zjadł mi moją piękną wierzbę w ciągu jednej nocy. No po prostu całą po prostu obgryzł, zjadł, złamał, koniec. No i zapytałem taki smutny Chata GPT, co teraz? No i on mnie pocieszył i napisał mi tak, że nie martw się, za trzy lata odrośnie. Jest to jakaś mądrość.

K.G.: I bóbr powróci.

B.N.: Bóbr powróci, właśnie nie wiem, co z tym bobrem zrobić. Trochę zgubiłem wątek, o co myśmy dokładnie pytali?

K.G.: O to, jakie dobre pytania, albo nie za mądre, się zadaje.

B.N.: Nie za mądre. My generalnie nie mamy talentu do zadawania dobrych pytań.

K.G.: O przepraszam bardzo, ja z tego żyję.

B.N.: Mówię o rozmowie z Chatem GPT, nie mamy często zielonego pojęcia o co zapytać, znaczy jak efektywnie zapytać, żeby się wzbogacić intelektualnie.

K.G.: Ja strasznie niechlujnie z tego korzystam.

B.N.: Bo to jest tak: jeżeli nie mamy żadnej wiedzy w danej dziedzinie, no to możemy próbować jakby z tego Chata tę wiedzę wyciągnąć. No ale teraz paradoks polega na tym, że skąd my mamy w sumie wiedzieć, jak on nam coś odpowie, że to się trzyma kupy. Gdzieś tu jest jakiś paradoks, że my coś musimy już wiedzieć. Chyba że znowu wracamy do tych mechanizmów weryfikacji, ale to jest też trochę ułudne, bo nawet jeżeli Chat nam wyprodukuje jakiś certyfikat, który nam powie, że ta odpowiedź jest prawidłowa, to my nadal możemy nie rozumieć dlaczego. Możemy tylko wiedzieć, że coś jest prawdziwe, ale nie wzbogaciliśmy się w naszym rozumowaniu.

K.G.: To tak na koniec: gdzie pan się ustawia w tej dyskusji, gdzie z jednej strony mamy takie stanowisko, że w zasadzie możemy zwijać zabawki, bo prędzej czy później w ciągu kilku lat AI zrobi za nas wszystko, będzie lepsza w diagnozowaniu, w matematyce, w programowaniu, w twórczości, zasadniczo we wszystkim. I to mamy po jednej stronie osi, a po drugiej mamy twierdzenie, że to jest tylko hype i bańka.

B.N.: Na pewno staram się być daleko od hype’u. Działam tak, że jeżeli ktoś mi mówi, że dany model coś robi, to go odpalam, sprawdzam. Tak długo testuję, aż się przekonuję, że cały ten hype to był o kant stołu i to wszystko jest nieprawda. Ale przy okazji zazwyczaj odkrywam rzeczy, o których nikt mi nic nie powiedział. I to jest najciekawsze, że w ogóle zachęcam do używania modeli z podstawowego powodu: że większość rzeczy, które usłyszymy o modelach, na przykład to, co ja dzisiaj opowiadałem, zupełnie inaczej wygląda w praktyce, jak zaczynamy ich używać. Bo się okazuje, że one mają dla nas, dla każdej osoby mają zupełnie inną wartość. Prawie zawsze to, co reklamują firmy, nie działa. To jest jakby taki, bym powiedział, absolutny standard. To znaczy jeżeli model nam mówi, czy firma nam reklamuje, że ten model będzie nam świetnie pisał powiedzmy wypracowania, to się okaże, że te wypracowania będą tak dobre, jak nasze wyobrażenia o tym, czyli będą beznadziejne. Ale z drugiej strony jak ktoś ma umiejętność wykorzystania, na przykład potrafi już pisać i chce na przykład wzmocnić pewne swoje umiejętności krytycznego myślenia, coś tam poprawić, to model mu w tym pomoże. Ja jestem raczej po stronie takich realistów, to znaczy osób, które biorą każdy model, go tam, no może nie rozrywają na strzępy, bo to trochę za dużo powiedziane, ale go dręczę różnego rodzaju wersjami pytań. Jeżeli widzę, że na przykład w danym zagadnieniu model bardzo regularnie odpowiada mi prawidłowo, i to mogę też sprawdzić w internecie na przykład czy sam przeliczyć, to zaczynam widzieć w tym pewną wartość. Na przykład ostatnio taką wielką wartość widzę w tym, co się nazywa vibe codingiem. Tutaj akurat część informatyków jest do tego dosyć sceptycznie nastawiona, ale na przykład jak prowadzę zajęcia dla studentów, to często mam potrzebę, żeby coś im pokazać i zrealizować. Czyli jakby zrobić jakiś fajny wykres. Ostatnio robiłem taki uplet, gdzie można było czterowymiarowe figury na przykład oglądać. No i duży problem polega na tym, że ja niby programuję, ale dużo czasu by mi zajęło napisanie tych wszystkich moich fantazji w taki sposób, żeby to działało od początku do końca. I vibe coding, czyli właśnie takie programowanie z Chatem GPT, polega na tym, że ja modelowi tłumaczę w taki bardzo precyzyjny sposób, co chcę uzyskać, on mi szybko pisze pierwszą wersję programu. Ja to testuję, marudzę, mówię, że to mi się nie podoba, a to trzeba poprawić. I czasami po takiej godzinnej sesji dostaję super działający program, który dokładnie robi rzeczy, które mi są potrzebne.

K.G.: Ale to te darmowe wersje dają takie możliwości? Czy pan ma abonament na po prostu?

B.N.: Też. To znaczy już od dawna nie używam żadnej darmowej wersji, ale takie najtańsze, tańsze, płatne. Pro nawet już nie trzeba. Wystarczy taka jakaś tam wersja za 100 złotych miesięcznie, to już w zupełności wystarcza. I on naprawdę świetnie programuje. Tu się otwiera duże pole możliwości, bo tak: jak ktoś, wczoraj miałem właśnie taki referat dla magistrantów na polonistyce i tłumaczyłem im, że nawet jeżeli nie programujecie, to z tym vibe codingiem możecie się bardzo szybko nauczyć wielu podstawowych takich trików programistycznych, które mogą wam się przydać w konkretnych sytuacjach, ale w zasadzie można już pewne rzeczy robić na gotowo. I tutaj, szczerze mówiąc, to nie jest hype. To jest rzeczywiście realne używanie. Jeżeli ktoś mi z drugiej strony mówi, że AGI, czyli ta ogólna sztuczna inteligencja, pojawi się w roku 2028, no to wiem, że to jest osoba, która sprzedaje takie modele. W sensie że on na tym musi zarabiać. Jak ktoś mi w ogóle opowiada o jakiejś zagładzie nauki i ludzkości, to ja mówię, słuchaj, no to zapraszam, pokażę ci trochę artykułów naukowych, to zobaczysz, jak daleko jeszcze do tej zagłady jest. W sensie że to nie jest taka prosta ścieżka, że już jak dwa zadania rozwiązane na krzyż, że tutaj już jakaś katastrofa nas czeka. Natomiast oczywiście ten horyzont się przesuwa, więc ja jakby za każdym razem, jak jestem pytany o to, to od poprzedniego spotkania, które mogło być miesiąc wcześniej, już widzę, że się coś nowego pojawiło i te rzeczy zaczynają mieć jakąś realną wartość. Ale cały czas wydaje mi się, że to wszystko jest jak taki multiplikator. To znaczy jeżeli do takiego czata przychodzi osoba, która ma całkiem niezłe pojęcie o różnych rzeczach, to używając takich narzędzi, będzie robić te rzeczy 10 razy szybciej albo 10 razy lepiej, albo na przykład nauczy się nowego działu nauki, gdzieś tam pobliskiego, po prostu bardzo efektywnie, bo już ma pewną bazę. I tak jak z tym pytaniem o ten sens życia, świata i tak dalej, jeżeli zadamy pytanie, w którym nasz wkład jest zerowy, to modele, nawet te najlepsze aktualnie, niewiele nam w życiu pomogą, więc jakby ten hype dla mnie jest daleko. Ale hype ma też pewne zalety. Tutaj warto to też podkreślić, że gdybyśmy byli tacy strasznie pesymistyczni wobec tych modeli, to pewnie nikt by nad nimi nie pracował. Więc jakby świat by się nie rozwijał. Więc w sumie też potrzebujemy trochę takich huraoptymistów, że jak już się coś udało, no to teraz… Przecież tak wygląda cała historia cywilizacji.

K.G.: Tak, chociaż teraz gra się też trochę toczy o rząd dusz, ponieważ modele fajnie, rozwiązywanie problemów matematycznych super, pchanie matematyki czy nauki do przodu we współpracy z naukowcami – oby bardzo fajnie, ale przecież ostatecznie tam też chodzi o pieniądze. I żebyśmy na przykład kupowali, żeby wyciąć na przykład wyszukiwarki, żebyśmy sobie tam wpisywali „potrzebuję zielonej kanapy”, a tutaj ten czacik powie, o, ta jest najlepsza w ogóle.

B.N.: No bo pamiętajmy, że to wszystko kosztuje.

K.G.: To jak trochę z jest wyszukiwarkami lata temu, że jak Google został wielkim niemalże monopolistą, no to może wszystko. No to tutaj czy nie mamy tego samego? To też tak myślę o tym, że trzeba pamiętać, że tam jednak ostatecznie chodzi też o hajs.

B.N.: O hajs w tym sensie, że każda karta graficzna kosztuje sporo pieniędzy. Utrzymanie na etacie programisty takiego utalentowanego, który pisze takie modele językowe, to też jest dużo pieniędzy. W ogóle energia elektryczna kosztuje też mnóstwo pieniędzy. Ale z drugiej strony te rzeczy tanieją, więc to nie jest tak. Przypomnijmy sobie, jak wyglądały…

K.G.: Ale mi chodzi o zysk, nie że na pokrycie kosztów.

B.N.: Zysk jest tutaj, z tego co wiemy, jesteśmy mocno na minusie. Każdy z laboratoriów liczy na kolejne pieniądze z venture capital, żeby trochę lepiej te zwroty się pojawiały. Ale są takie przebłyski, na przykład jest taki model Olmo. To jest zupełnie otwarty model, otwartowagowy, z otwartymi danymi, więc… Są takie modele jak NanoGPT, gdzie każdy z nas może sobie taki model językowy stworzyć sam. I już są przykłady, gdzie ludzie wykorzystują te rzeczy samodzielnie, we własnym zakresie. To by było niemożliwe jeszcze 2-3 lata temu, gdyby nie ten hype i ta wiara, że te w sumie niewiele robiące modele wczesne kiedyś tam będą robiły coś lepszego. To jest trochę taki nawracający motyw z Ikarem, prawda, że my naprawdę chcieliśmy już od dawna latać i nam się to bardzo długo nie udawało, ale jakoś w tej naszej głowie się zakotwiczył ten mem, ta myśl, że może w końcu coś się nam uda zrobić takiego, że polecimy w kosmos, będziemy latali po niebie. I hype, który jest rzeczywiście napędzany często finansowo, ale on też czasami, mam wrażenie, ma podbudowę taką trochę altruistyczną. To znaczy, że jednak tam w tej grupie tych ludzi, którzy są takimi hyperami, są tacy pozytywni wariaci, którzy wierzą, że naprawdę z tego jakieś dobro dla ludzkości wyniknie. W sumie czasami to jest tak, że tacy wariaci mogą być niebezpieczni, no bo jeżeli oni w to wierzą, to mogą za szybko pewne rzeczy nam udostępniać i to może być nieprzetestowane, może prowadzić do katastrofy. Ale z drugiej strony gdyby nie było marzycieli, to byśmy nie mieli przełomów, więc jakby ja traktuję czasami hype jako to takie zło konieczne, że niektórzy nam reklamują pewne rzeczy, dużo jest w tym pewnie kłamstwa, ale jeżeli jakiś progres w tym jest, to ja mówię okej, no to warto przynajmniej spróbować. Więc jakby nie ekscytuję się hypem, ale rozumiem potrzebę, że coś takiego musi być reklamowane.

K.G.: Byłoby fajnie, żeby te pozytywne strony ze strony AI dotyczyły całego społeczeństwa, bo teraz mam wrażenie, że to jest punktowo, na przykład to wspiera właśnie naukowców czy specjalistów, a my z kolei tutaj na dole dostajemy zalew jakichś fejkowych zdjęć, filmów, sklepów, które udają upadający sklep lokalnego szewca, w ogóle wykup nasze rzeczy, a tak naprawdę to wszystko leci z Chin, przy oczywiście absolutnym wyluzowaniu ze strony na przykład Mety, czemu nie. To jest też kłopot, że my z jednej strony rozmawiamy o technologii tak czysto i naukowo, a z drugiej strony mamy też jednak interesy, więc to wszystko jest jakieś takie pomieszane.

B.N.: Tylko to jest trochę jak z samochodami, nie? Samochody zaczęły nam w wielu rzeczach pomagać, pojawiło się zjawisko smogu. Zaczęliśmy zanieczyszczać powietrze w ten sposób. Każde narzędzie to jest jakaś forma noża. Dzieciom nie dajemy noży do ręki, bo nie wiemy co z tym zrobią. Modele językowe to są takie nożyki, które nam trochę tak obrazowo, grzebią w głowach. Ja osobiście się zawsze czuję wylękniony, jak myślę o tym, że ten Chat GPT trochę mi miesza w głowie. Więc to jest takie ryzyko dla wszystkich i trzeba jakby też w ten sposób myśleć, że jeżeli my się godzimy na używanie tych narzędzi, to np. jeśli chodzi o osoby niepełnoletnie, to tutaj wydaje mi się, że potrzebujemy bardzo dużo poważnych debat, no bo dzieciaki, które używają takich narzędzi, przywiązują się do nich np. emocjonalnie. No to tutaj pokazuje nam to, że gdzieś jakby potencjał tej technologii poszedł nie w tą stronę, gdzie powinien.

K.G.: A wielu z nas, młodszych i starszych, traktuje też odpowiedzi z tych modeli bezkrytycznie, jak prawdę objawioną. Jak coś obiektywnego.

B.N.: No właśnie, bo to jest ten cały paradoks, że Chat GPT nigdy nie powiedział niczego prawdziwego. On zawsze tworzy, ja lubię takie angielskie słowo vibe, nie wiem jak to na polski przetłumaczyć, wibracje? Flow niektórzy mówią, to też tak nie za bardzo po polsku, ale coś podobnego. Chat GPT jest jak taki dobry domokrążca, komiwojażer, sprzedawca. Że on ma ten flow.

K.G.: Zawsze będzie miły.

B.N.: Ale nie chodzi tylko o to bycie miłym, chodzi o to, że on daje nam ten feeling, że o tutaj wiesz, z tym, tak i to. W sumie nie wiemy o co chodzi, ale czujemy się z tym dobrze. Czy w tym jest jakaś prawda? Ten komiwojażer też ma jakąś prawdę, w sensie on wie, że chce sprzedać nam produkt. A co nam chce zrobić Chat GPT? No chce nam napisać kolejny token. I teraz jak pomyślimy jakby od tej strony, to się okaże, że jeżeli będziemy tym generowaniem tokenów sterowali mądrze, to na jakimś poziomie tam prawdę gdzieś może zobaczymy, ale to nie jest takie oczywiste, że tam gdzieś się prawda pojawi.

K.G.: Jeśli ma pan siłę, to jeszcze jedno pytanie od Patrona Radia Naukowego, bo my zawsze na grupie na Facebooku dajemy znać o nagraniach wcześniejszych. I mamy pytanie całkiem specjalistyczne od Przemka. Może parę słów na temat niedawnego udowodnienia przez jeden z modeli problemu Erdősa nr 124. Ogłoszono to jako przełom, ale trudno było zrozumieć, czy to prawdziwa rewolucja, czy przesada. Podobno tak naprawdę udowodniona została słabsza, dość prosta wersja tego problemu, a sam problem być może pozostawał nierozwiązany właściwie dlatego, że przez lata nikt się nim poważniej nie zainteresował. Jeśli sam problem nie jest tak naprawdę istotny, to może przyda się jako przyczynek do rozmowy o tym, ile prawdy jest w kolejnych rewolucjach ogłaszanych przez firmy.

B.N.: Akurat z tym mam trochę coś wspólnego, bo współpracuję właśnie z Harmonic Math, gdzie mamy dostęp do tych modeli, które formalizują matematykę, i widziałem od środka te rzeczy, które związane z niektórymi z tych problemów Erdősa pojawiały się. Wszystkie te aktualnie ogłaszane w różnych miejscach rewelacje, że właśnie takie problemy są rozwiązywane, trzeba traktować, że to jest taki test pokazujący, że… Po angielsku się mówi proof of concept, że mam matematycznie nietrywialny problem, który nie miał w znanej literaturze, przynajmniej nie pamiętam, czy to był 126 tutaj mieliśmy do czynienia, bo tam jest kilka.

K.G.: 124, akurat o to było pytanie.

B.N.: Właśnie nie pamiętam, czy to ten, czy ten drugi, w każdym razie jeden z tych problemów rzeczywiście był już rozwiązany w literaturze wiele lat temu i w pewnym sensie jakby Chat GPT zrekonstruował ten dowód z literatury, którą prawdopodobnie przeczytał. Chociaż tego nie mamy gwarancji. Nie wiemy, czy ten model rzeczywiście całą tą literaturę… My nawet nie wiemy, na jakich danych treningowych był trenowany. Ale teraz jak popatrzymy, bo tych problemów Erdősa ostatnio jest kilka, które zostały rozwiązanych. I to zaczyna troszeczkę wyglądać jak pewien schemat, to znaczy jeżeli mamy problem matematyczny, do którego w sumie są już narzędzia, i rzeczywiście nikt się nad nim nie zastanawiał, a tak w przypadku większości tych problemów jest, że po prostu problemów jest zawsze dużo więcej niż ludzi, którzy mogą je rozwiązywać. Więc jeżeli obtrenowaliśmy model, który trochę działa jak ten matematyk, no to on zaczyna powtarzać te nasze odpowiednie kroki, zaczyna udawać matematyka. Więc dla mnie to nie jest aż tak zaskakujące, że prędzej czy później, jak się to dobrze poukłada, to takie modele zaczynają rozwiązywać również niezbyt skomplikowane problemy otwarte. I to jest myślę rzecz, którą będziemy widzieli teraz w coraz większej ilości. Więc to jest jakiś przełom, to znaczy to jest przełom taki technologiczny, pokazujący, że udało się zbudować wersję algorytmu, że on naprawdę robi coś, co jest dodaną wartością do literatury. Ale nadal pamiętajmy, że te problemy to są takie mikrowycinki matematyki. Ja mówiłem o tych dziesięciu tysiącach stron, no to teraz trzeba by ten problem przeskalować, z zupełnie innych dziedzin oczywiście, razy kilka tysięcy. Pojawia się już taki przyziemny problem kosztu. Bo powiedzmy szczerze, to rozwiązanie tych problemów Erdősa jednych, drugich czy trzecich, to kosztowało już pewnie łącznie elektryczności jakieś tam kilkaset dolarów. Więc teraz jakbym chciał rozwiązywać tysiąc takich problemów, to muszę uruchomić naprawdę potężne zasoby obliczeniowe i to się robi problem. Ale nie mam w ogóle gwarancji, że to się będzie skalować. Czyli jeżeli teraz dostanę problem, który w tym przypadku… Tych problemów Erdősa nawet te formalne wersje tych dowodów mają po kilkaset linii kodu. Czyli one są takie, bym powiedział, dość małe. To jest porównywalne mniej więcej z jakimś wyrafinowanym zadaniem z olimpiady matematycznej. Oczywiście to liczenie tych linii kodu to nie jest do końca jakby dobra miara, ale mniej więcej pokazujące, że to nie jest jeszcze klasa problemów badawczych. To znaczy to są jakieś problemy badawcze, ale w tym sensie, że to nie są takie fundamentalnie ważne problemy matematyczne, które będą pchały ludzkość do przodu. Ale to, że to się dzieje, znowu tak jakby przenosząc się trzy lata wstecz, pokazuje, że idziemy w dobrym kierunku. I to wiem akurat od wewnątrz, z współpracy z tym Harmonikiem, że tam jest jeszcze kilka asów w rękawie. W najbliższym czasie jeszcze kilka niespodzianek się też pojawi, więc warto śledzić te newsy. Ja myślę, że na pewno to nie jest fundamentalnie jeszcze szokujące, ale przynajmniej pokazuje, że idziemy w dobrą stronę, bo pamiętajmy, że zaczęliśmy od tych nieszczęsnych LLM-ów, które po prostu gadają mniej lub bardziej zorganizowane głupoty. A tutaj doszliśmy do etapu, że te modele zaczynają już jednak tworzyć strukturalnie uporządkowaną wiedzę. I to jest w pewnym sensie ta rewolucja, która się wydarzyła pod koniec 2025 roku. Co nam pokaże rok 2026? Nie wiem, tak sobie myślałem, co bym chciał, żeby mi Mikołaj przyniósł. I chyba mam nawet pomysł. Chciałbym, żeby Mikołaj przyniósł mi model, który będzie potrafił rozumieć topologię. To jest rzecz, którą bym chciał zobaczyć. I gdybym to zobaczył, myślę, że to by było wow, w sensie że wiele rzeczy ciekawych by się mogło później wydarzyć.

K.G.: Bardzo serdecznie dziękuję i przy okazji też podziękuję i polecę wam serwis trajektorie.pl, gdzie jest dużo fajnych treści dotyczących AI tak na bieżąco, nie hype’owo, tylko właśnie mocno z naukowej strony. Ja tam przeczytałam wywiad z doktorem Naskręckim, co mi bardzo pomogło też w przygotowaniach. Doktor Bartosz Naskręcki, UAM. Dziękuję bardzo.

B.N.: Dziękuję bardzo.

Dodane: 08/01/2026

Technologia

Udostępnij:

dr Bartosz Naskręcki

Matematyk, adiunkt Zakład Geometrii Algebraicznej i Diofantycznej, prodziekan Wydział Matematyki i Informatyki Uniwersytetu Adama Mickiewicza, pracuje również w Centrum Wiarygodnej Sztucznej Inteligencji na Politechnice Warszawskiej.

Tagi

Posłuchaj tutaj:

Przejdź do apple_podcasts
Przejdź do google_podcasts
Przejdź do castbox
Przejdź do spotify
- Youtube
  Przejdź do youtube
- RSS
  Przejdź do rss
- Deezer
  Przejdź do deezer
- Podcast Addict
  Przejdź do podcast_addict
- Podchaser
  Przejdź do podchaser

Polecamy na blogu

Styczeń w Radiu Naukowym. Nie przegap wybornych odcinków!... Czytaj więcej Przejdź do wpisu Styczeń w Radiu Naukowym. Nie przegap wybornych odcinków!

Wiarygodność AI. Debata Kopernikańska w Toruniu. Prowadzenie: Karolina Głowacka... Czytaj więcej Przejdź do wpisu Wiarygodność AI. Debata Kopernikańska w Toruniu. Prowadzenie: Karolina Głowacka

Polecamy na blogu

Styczeń w Radiu Naukowym. Nie przegap wybornych odcinków!... Czytaj więcej Przejdź do wpisu Styczeń w Radiu Naukowym. Nie przegap wybornych odcinków!