wydanie cyfrowe

Polacy nie gęsi i swoje LLM-y mają

973018_big_photo_image_photo_image
7 października list intencyjny w sprawie wdrożenia PLLuM w Łodzi podpisali wicepremier i minister cyfryzacji Krzysztof Gawkowski i prezydent miasta Hanna Zdanowska
Nie jesteśmy skazani na korzystanie wyłącznie z opracowanych poza Polską wielkich modeli językowych. Nad Wisłą powstały dwa duże rozwiązania, rozwijane są mniejsze, mamy know-how i zasoby, by prace nad nimi były kontynuowane. Mamy jeszcze jeden atut – język polski.

Suwerenność jest ważna – w tym technologiczna. Przypomniała o tym w wywiadzie podczas projektu Cyfrowa Gospodarka prof. Aleksandra Przegalińska, prorektor ds. innowacji oraz AI w Akademii Leona Koźmińskiego, senior research associate w Center for Labor and a Just Economy Harvard Law School.

– Myślę, że wiele państw, nie tylko Polska, stoi teraz w Europie przed takim dylematem: czy podłączać się do jakichś szerszych wysiłków, czy korzystać z rozwiązań już dobrze znanych, np. spółek amerykańskich, w kontekście chmury (obliczeniowej – red.), sztucznej inteligencji, a może próbować budować coś swojego – powiedziała. – Jestem teraz na Harwardzie, ale sporo pracuję z różnymi uczelniami europejskimi. Koledzy ze Szwajcarii właśnie chwalili się ostatnio szwajcarskim modelem językowym. Słyszymy od kolegów z Barcelony, że model językowy działa już nawet po katalońsku. W wielu krajach skandynawskich widzimy to samo – opowiadała podczas rozmowy, dodając, że takie inicjatywy są również ważne dla trenowania kadr.

Profesor Przegalińska mówiła też o intencjach „uniezależniania się od zewnętrznego świata, który staje się coraz bardziej skomplikowany, coraz bardziej niepewny”. Rozwój polskich LLM-ów, podobnych do amerykańskiego ChatGPT, chińskiego DeepSeeka lub francuskiego Mistrala, wpisuje się w ten trend.

Profesor Przegalińska zwróciła uwagę na pozornie banalną, ale ważną rzecz: tłumaczenia. Nie zawsze dobrze oddają one np. terminologię podatkową, prawniczą czy medyczną. Trenowanie polskiego modelu AI na polskojęzycznych danych może dać lepsze rezultaty od korzystania z modeli zagranicznych.

Wiosną tego roku naukowcy z University of Maryland i Microsoftu poinformowali o stworzeniu benchmarku ONERULER. To specjalne narzędzie, które ma sprawdzać, jak modele językowe radzą sobie z rozwiązaniem bardziej złożonych zadań w zależności od tego, w jakim języku zostaną zapytane. Angielski wcale nie okazał się najlepszy do promptowania, czyli do wydawania modelom poleceń. Zajął dopiero szóste miejsce. ONERULER wskazał natomiast, że najlepiej sprawdza się… polski. W naszym języku sztuczna inteligencja rzadziej się gubi, lepiej wyciąga dane z długich tekstów i po prostu trafniej odpowiada na pytania.

Mikołaj Rej, autor słynnego „A niechaj narodowie wżdy postronni znają, iż Polacy nie gęsi, iż swój język mają”, byłby dumny.

PLLuM, czyli rodzimy dream team

Największymi i najbardziej zaawansowanymi wielkimi modelami językowymi nad Wisłą są PLLuM (Polish Large Language Model) i Bielik.

Pierwszy z nich, kosztem 14,5 mln zł, intensywnie rozwijało przez niemal cały ubiegły rok konsorcjum PLLuM, którego liderem była Politechnika Wrocławska.

W lutym tego roku model został oficjalnie zaprezentowany przez Ministerstwo Cyfryzacji jako pierwszy rządowy LLM, zaprojektowany z myślą o języku polskim. Wtedy też rząd podał, że na dalszy rozwój PLLuM wyda w tym roku co najmniej 19 mln zł.

– PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli. Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu – mówił Krzysztof Gawkowski, wicepremier i minister cyfryzacji.

Do projektu dołączyli kolejni partnerzy, powstało konsorcjum HIVE AI. Na jego czele stoi NASK, a w jego skład wchodzi oprócz Politechniki Wrocławskiej Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Ośrodek Przetwarzania Informacji (OPI-PIB), Uniwersytet Łódzki oraz Centralny Ośrodek Informatyki oraz Akademickie Centrum Komputerowe CYFRONET AGH. W obszarze AI w Polsce to w zasadzie dream team. Uczestnicy konsorcjum HIVE AI dysponują odpowiednimi kadrami, potężnym już doświadczeniem, wsparciem rządowym i najszybszymi superkomputerami w Polsce, które ma Akademickie Centrum Komputerowe Cyfronet.

PLLuM to nie pojedynczy mod el AI, ale cała ich rodzina o zróżnicowanych parametrach i przeznaczeniu. Najlepsze z nich w testach kompetencji językowych i kulturowych w języku polskim plasują się na równi z globalnymi gigantami, a czasem je nawet przewyższają, szczególnie w obszarze zadań specyficznych dla polskiej administracji publicznej.

Modele PLLuM są dostępne w trzech wariantach funkcjonalnych: base (bazowy) – po adaptacji językowej, nie rozumie jeszcze poleceń. To baza do dalszego uczenia. Instruct (instrukcyjny) – douczony na zbiorach zadań i odpowiedzi. Potrafi reagować na polecenia i wykonywać zadania, np. streszczać teksty, tłumaczyć, pisać e-maile. Chat (wychowany) – model konwersacyjny, gotowy do rozmowy z użytkownikiem końcowym.

Pod skrzydłami Bielika

Sebastian Kondracki, SpeakLeash

Bardzo dobrze w testach wypada również Bielik. Pochodzi on z rodziny modeli AI rozwijanej oddolnie i zgodnie z ideą open source oraz open science (udostępniana każdemu i z pełną jawnością wyników prac badawczych) przez ekspertów i pasjonatów AI z różnych firm i instytucji, często znanych, jak np. Credit Agricole Bank Polska czy Wirtualna Polska. Bardzo ważnym momentem dla stojącej za nim inicjatywy SpeakLeash (znanej też pod nazwą Spichlerz) było nawiązanie w ubiegłym roku ścisłej współpracy z Akademickim Centrum Komputerowym Cyfronet AGH. Dzięki temu, wykorzystując moce obliczeniowe superkomputerów Athena i Helios oraz dane zgromadzone przez SpeakLeash, w kwietniu 2024 r. udostępniono pierwszy polski model językowy z tej rodziny – Bielik (a właściwie Bielik-7B-v0.1).

Kolejnym przełomem było podpisanie w czerwcu tego roku listu intencyjnego z Nvidią dotyczącego współpracy w zakresie rozwoju lokalnych modeli językowych. Szef Nvidii Jensen Huang ogłosił w Paryżu, że Bielik, usprawniony przez Nvidię, dostępny będzie w Perplexity. To popularny silnik AI, który służy przede wszystkim do wyszukiwania informacji i oparty jest na różnych modelach językowych.

– To przepiękne uczucie i wielka motywacja dla nas – skomentował ten sukces Sebastian Kondracki, jeden z założycieli fundacji SpeakLeash.

Co ważne w działalności Spichlerza, nie tylko buduje ona zaawansowane LLM-y, lecz także tworzy cenne narzędzia i metody dla ich twórców. Ma też oryginalne pomysły, jak do projektu budowy polskiej dużej AI zaprząc rodaków. Startuje właśnie np. inicjatywa Obywatel Bielik, której celem jest zebranie 1 mln odpowiednio opisanych fotografii – dowolnych zdjęć przedstawiających charakterystyczne miejsca w naszym kraju, zwierzęta typowe dla tego regionu Europy czy postaci historyczne związane z Polską. Po co? Aby nauczyć Bielika najlepiej rozpoznawać wszystko, co jest związane z Polską, i potem na bazie tego budować różne narzędzia AI, w tym m.in. wspierające polskie firmy e-commerce.

PLLuM i Bielik to największe polskie LLM-u, ale nie jedyne. Z pewnością warto wspomnieć o projekcie Qra rozwijanym przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB) i Politechnikę Gdańską (PG), a także Trurl. Ten drugi to z kolei komercyjna inicjatywa firmy Voicelab.AI z Gdańska, oferująca modele konwersacyjne dostrojone do języka polskiego i angielskiego.

Pierwsze wdrożenia i ambitne plany

PLLuM ma zastosowanie w samorządach terytorialnych. Trafił do Urzędu Marszałkowskiego Województwa Lubuskiego, aby wspierać i optymalizować pracę urzędników, a także poprawić komunikację z obywatelami. Na początku października konsorcjum HIVE AI podpisało porozumienie z Urzędem Miasta Gdyni, dotyczące pilotażowego wdrożenia modelu w obsłudze mieszkańców. Zostanie on zintegrowany z miejskim czatbotem oraz wyszukiwarką Biuletynu Informacji Publicznej, ułatwiając mieszkańcom korzystanie z dokumentów, interpelacji radnych czy procedur administracyjnych. Z kolei 7 października list intencyjny w sprawie wdrożenia PLLuM w Łodzi podpisali Krzysztof Gawkowski i prezydent miasta Hanna Zdanowska. W sierpniu podpisano podobny z Częstochową, sztuczna inteligencja wesprze urzędników m.in. w tworzeniu pism, streszczaniu dokumentów oraz w analizie zapytań od obywateli.

Z PLLuM-a korzysta też w swoich wewnętrznych procesach Comarch. Model AI jest wykorzystywany do automatyzacji obsługi klienta w systemie ChatERP, gdzie model odpowiada za komunikację z użytkownikami systemów ERP. Asystent oparty na PLLuM pomaga klientom w poruszaniu się po interfejsie, usprawnia realizację zadań, udziela odpowiedzi w naturalnym języku oraz automatyzuje rutynowe czynności.

Rozwojowi polskich LLM-ów sprzyjają uruchamiane właśnie wielkie projekty budowy centrów danych dla AI z funduszy unijnych, w tym np. ogłoszonej kilka dni temu Gaia AI Factory w Krakowie. Będzie to projekt o wartości 70 mln euro (300 mln zł), mający być impulsem dla całego ekosystemu świata nauki, administracji i innowacji.

W projekcie „Polityki rozwoju sztucznej inteligencji w Polsce do 2030 roku” zapisano, że celem jest dołączenie do 10–20 najbardziej zaawansowanych państw świata w rankingach sztucznej inteligencji. W tym celu Polska ma stwarzać takie warunki prawne, technologiczne, finansowe i edukacyjne, które umożliwią rozwój AI oparty na sprawnej współpracy nauki, administracji, biznesu i społeczeństwa obywatelskiego. Marcin Kaczmarczyk, JPO

RAMKA

Czym są modele językowe

LLM-y to jedna z wielu twarzy sztucznej inteligencji. Na początku trzeba dać im dane, uczą się na miliardach zróżnicowanych tekstów. W procesie tym (treningu) dostają fragmenty tekstów, ich zadaniem jest np. dokończyć zdanie, w pewnym sensie odgadnąć, co użytkownik mógł mieć na myśli. W dużym uproszczeniu: zgadują kolejne słowa na podstawie powtarzalnych wzorców, zestawów poleceń i odpowiedzi.

Po podstawowym treningu można model douczać, czyli ukierunkowywać na konkretne zastosowania. To trochę jak uczeń, który zna język, ale musi się nauczyć pisać esej czy formalny list, potrzebne są instrukcje i przykładowe wypowiedzi. Później model można jeszcze wychować, ucząc go reagować uprzejmie, bezpiecznie i zgodnie z oczekiwaniami. Modele językowe nie są wyszukiwarką ani encyklopedią. Kojarzą fakty, które występowały w danych treningowych, mogą nie znać aktualnych wydarzeń. Dlatego mówi się o dacie odcięcia (cut-off date), ostatniej dacie tekstów, które widział model w trakcie uczenia.

Modele nie są nieomylne. A kiedy nie znają odpowiedzi, potrafią ją wymyślić (halucynować).

LLM nie sprawdzi się, jeśli liczy się absolutna świeżość danych, nie ma czasu na sprawdzanie odpowiedzi lub jeśli zadanie można łatwo rozwiązać prostym algorytmem. Nie zaleca się też wpisywania danych wrażliwych do publicznych czatów, lepiej uruchomić model lokalnie lub sięgnąć po klasyczne bazy wiedzy.

Źródło: mc.gov.pl


dgp@infor.pl
Nasz serwis wykorzystuje wyłącznie najnowsze technologie, aby zapewnić użytkownikowi najwyższą jakość usług. Prosimy o zaktualizowanie przeglądarki, aby poznać pełne możliwości naszego serwisu. Pobierz Microsoft Edge, aby korzystać z serwisu.