Burza wokół Bielika i PLLuM. „To jak porównywać F-16 do furgonetki”. Czy polskie AI naprawdę przegrywa? (WYWIAD)
Krytyczny raport i pytania o realną jakość polskich modeli AI rozpaliły debatę w branży technologicznej. Sebastian Kondracki, szef projektu, który stworzył Bielika, odpiera zarzuty i wskazuje na błędy w metodologii porównań. Gdzie leży prawda i czy rzeczywiście mamy do czynienia z technologiczną przepaścią?
Z tego artykułu dowiesz się…
- Dlaczego porównywanie polskiego modelu Bielik z globalnymi gigantami AI może prowadzić do mylących wniosków.
- W jakich konkretnych zadaniach Bielik potrafi konkurować, a nawet wygrywać z dużymi modelami językowymi, mimo znacznie mniejszej skali i zasobów.
- Jak wygląda praktyczne zastosowanie polskiego AI w biznesie i administracji oraz dlaczego dla wielu organizacji może być ono bardziej użyteczne niż popularne narzędzia dostępne online.
Czy Bielik w języku polskim jest znacznie gorszy niż ChatGPT i inne LLM?
To trochę tak, jakbyśmy porównywali dwa środki transportu. Przykładowo: F-16 i furgonetkę. I teraz można zadać pytanie: który ma lepsze przyspieszenie? Jeśli chcemy porównywać ChatGPT, który ma włączony internet, system wnioskujący, zbudowany w ogromnej skali z modelem, który jest przede wszystkim silnikiem… To chyba wiadomo, że przez analogię F-16 zawsze będzie miał lepsze przyspieszenie. Jakbyśmy się nie starali i nie chwalili polskiej myśli technicznej, to tak samo tu jest z Bielikiem.
To po co nam Bielik czy PLLuM?
Bielik jest fantastyczny do pracy nad tekstem w języku polskim. I tu można go porównywać do dużego modelu językowego, typu wspomniany już ChatGPT. Bielik potrafi świetnie robić analizę tekstu w języku polskim, tłumaczyć tekst na języki. Ma jednak pewną fundamentalną cechę. Bielik jest modelem kompaktowym, który ma pracować w biznesie. Ma zajmować się przetwarzaniem danych wrażliwych w języku polskim. I pod tym kątem jest co najmniej na tym samym poziomie, co duże modele językowe, mimo mniejszej liczby parametrów.
Warto wiedzieć
Sebastian Kondracki
Programista, współtwórca i szef projektu Bielik AI. Twórca fundacji Spichlerz. Szef innowacji w spółce Devinity oraz prezes firmy SerwisPrawa.pl. W 2026 r. został powołany przez Donalda Tuska do Rady Przyszłości. Od lat jest członkiem organizacji branżowych oraz grup doradczych w organach administracji publicznej.
Polskie AI krytykowane
Firma Oxido, która opublikowała właśnie raport na ten temat, twierdzi, że jest inaczej.
Benchmarków jest bardzo dużo. Mają je duże, europejskie organizacje, jak Euroeval. Ma też OPI PIB. Mamy także i my, czyli SpeakLeash. Przykładowo, w generowaniu bardzo literackich form Bielik rzeczywiście wypada gorzej, niż duże modele językowe. Ale w badaniach wyspecjalizowanych zadań często pokonujemy gigantów. Tu nie ma nic odkrywczego.
Warto wiedzieć
Oxido krytykuje polskie modele GenAI
W raporcie opublikowanym 17 marca na łamach „Rzeczpospolitej”, firma Oxido przeprowadziła badanie 12 modeli językowych, w tym m.in. ChataGPT, 3.1 Pro, Llama 4, GPT-5.2 czy polskich: Bielik 3.0 oraz PLLuM 8x7B. Zgodnie z wnioskami polskie modele poradziły sobie z językiem polskim znacznie gorzej niż zachodnie. Bielik zdobył 6,38 pkt a PLLuM 5,95. Dla porównania Gemini miało 8,13 pkt a GPT-5.2 7,66.
Modele miały wykonać 20 zadań z 10 kategorii, w tym stworzyć maila, udzielić porad czy zacytować „Pana Tadeusza”.
Mimo wszystko raport pokazuje duże różnice w operowaniu językiem polskim.
Jest w nim masa błędów metodologicznych. Po pierwsze, porównywanie różnych typów modeli w zadaniach. To tak, jakbyśmy chcieli porównać test antypoślizgowy samochodu i porównywać auto na letnich oponach z autem na zimowych, a potem powiedzieli: „No jednak ten samochód jest gorszy”. Nie, on nie jest gorszy, on po prostu jest na letnich oponach. W badaniu przetestowano tak naprawdę nie jakość modelu i polskiej sztucznej inteligencji, tylko jakość konfiguracji.
Blaski i cienie Bielika
To znaczy?
Po pierwsze zagraniczne modele miały dostęp do internetu. Czyli jeśli pytamy o początkowe wersy „Pana Tadeusza”, to zagraniczne modele nie korzystają nawet z wiedzy „wewnętrznej”, tylko pobierają to sobie z internetu i przedstawiają to, czego chcemy. Natomiast takie modele jak PLLuM czy Bielik nie mają dostępu do internetu, nie są bazą danych, więc nie mają zakodowanego „Pana Tadeusza”. Czy to świadczy o tym, że Bielik jest gorszy w języku polskim, bo nie zna „Pana Tadeusza”? Nie. Podłączcie mu internet, tak jak innym modelom i wtedy testujcie.
Można tak robić?
Oczywiście, w wielu wdrożeniach biznesowych Bielik tak działa. Zapewniam, że poda bardzo dokładną odpowiedź. Oczywiście są testy modeli w cytowaniu książek, ale bardziej w obszarze, na których danych trenowane są i czy czasami nietrenowane z naruszeń praw autorskich.
Bielik i PLLuM a zachodnie modele AI
Na czym dokładnie polega Pana zdaniem różnica między Bielikiem czy PLLuM a takimi modelami, jak ChatGPT czy Gemini?
Zarówno Bielik, jak i PLLuM, są modelami bardziej B2B, niż B2C. Działają najlepiej, jeśli pobierze się je na swój serwer i ustawi odpowiednie parametry w zależności od zadania. Jeśli użytkownik potrzebuje czegoś kreatywnego, ustawi parametry inaczej, niż gdyby potrzebował analizy tekstu. I tu moim zdaniem polega fundamentalny problem z cytowanym badaniem. Małe, kompaktowe modele wymagają odpowiedniej konfiguracji. Duże systemy mają dobierane parametry przez inne modele lub na podstawie historii pracy użytkownika.
Dodatkowo modele zamknięte można dostrajać i dalej uczyć. My to robimy, np. dodaliśmy właśnie język śląski. Cały czas rozbudowujemy możliwości Bielika. I dla nas kluczowe są benchmarki, które pokazują możliwości np. w świecie prawniczym albo medycznym. A badanie, o które pan pyta, miało jasną tezę: powiedzieć, że polskie AI jest złe.
Są takie obszary, w których może pan bez wahania powiedzieć, że Bielik jest lepszy niż zachodnie modele GenAI i są na to obiektywne dowody?
Trzeba pamiętać o tym, że kategoria „zachodnich modeli” jest ogromna. Są w niej np. modele otwartowagowe Meta LLAMA o wielkości 400B, czyli około 40 razy większe niż Bielik. Są też modele zamknięte, np. OpenAI GTP-5.1. W tym drugim przypadku nie wiemy, ile ma parametrów. W praktyce mogą być większe o kilka rzędów wielkości. Zatem... Tak. Jesteśmy lepsi niż zachodnie modele w podobnej kategorii wagowej. Uwaga! Nie tylko w języku polskim. Przykładowo, OpenAI wypuścił model otwartowagowy 120B i 20B i np. w polskim teście kompetencji językowych i kulturowych tworzony przez OPI PIB jesteśmy dużo lepsi. Innym przykładem są wyspecjalizowane zadania np. prawne. Bielik dostrojony przez firmę Gaius-Lex jest lepszy niż GPT-5 w polskich zadaniach prawnych.
Koszty rozwoju a sprawa polska
Jest jeszcze inny wątek. Porównujemy Bielika czy PLLuM do modeli, których wytrenowanie kosztowało ogromne pieniądze.
Pierwszy model GPT-3.5 Turbo miał 176 mld parametrów, czyli już wtedy był 16 razy większy niż Bielik. Nie ma więc szans, żebyśmy zawsze wygrali, nawet w języku polskim, z zamkniętym modelem. Powiem wręcz, że czasem nie ma sensu odpalać Bielika, także biznesowo, jeśli nasze potrzeby to np. skrócenie 10 dokumentów. Łatwiej użyć narzędzi OpenAI czy Anthropic, niż kupować serwer AI, stawiać Bielika i szkolić narzędzie pod konkretne potrzeby czy dostrajać go pod określone bazy. Ale jeśli potrzebujemy poważniejszych zastosowań to, nawet jeśli Bielik nie zacytuje „Pana Tadeusza”, to rozwali w tych zastosowaniach modele amerykańskie.
Zdaniem eksperta
Polskie modele to sukces. I szansa
Na tym tle szczególnie interesujące są inicjatywy tworzone niemal bez budżetu publicznego, oparte na pracy społeczności, wsparciu instytucji i dostępie do mocy obliczeniowych udostępnianych przez partnerów technologicznych. Fakt, że takie modele są w stanie osiągać relatywnie dobrą jakość, należy traktować jako sukces. Nawet jeśli ustępują one najlepszym rozwiązaniom komercyjnym, to różnica ta staje się zrozumiała w kontekście skali nakładów.
Kluczowym aspektem jest jednak suwerenność – zarówno technologiczna, jak i ekonomiczna. W obszarach wrażliwych, takich jak bezpieczeństwo czy przetwarzanie danych, konieczne jest posiadanie rozwiązań, nad którymi mamy pełną kontrolę i które mogą działać lokalnie, bez uzależnienia od zewnętrznych dostawców chmurowych. Drugi istotny wymiar to ekonomia. Wraz z rosnącym wykorzystaniem AI do zwiększania produktywności, wartość generowana przez te technologie w dużym stopniu trafia dziś do globalnych korporacji. Głównie spoza Europy.
Z tego powodu rozwój własnych kompetencji w obszarze AI jest strategicznie uzasadniony. Nie oznacza to jednak, że Polska powinna samodzielnie konkurować w budowie największych modeli ogólnego przeznaczenia. Bardziej racjonalne wydaje się podejście europejskie. Budowa wspólnych, konkurencyjnych rozwiązań na poziomie Unii. Przy jednoczesnym rozwijaniu lokalnych kompetencji i mniejszych modeli jako fundamentu do dalszego wzrostu.
Przykłady pokazują, że inicjatywy oddolne mogą osiągać lepsze rezultaty niż te realizowane przy wsparciu państwa. Kluczowe staje się więc nie tyle zwiększanie wydatków, ile ich lepsza organizacja.
Biznes i Bielik
Czy macie na to dowody w postaci konkretnych przykładów biznesowych?
Całe mnóstwo! Przykładowo podczas polskiej prezydencji w Unii Europejskiej aplikacja „Proste Pismo” była realizowana na Bieliku i uproszczała całą komunikację. Korzysta z niego Ministerstwo Finansów, ZUS, Pekao, Credit Agricole czy mnóstwo firm technologicznych albo z branży energetycznej.
Czy pana i cały zespół boli to, że w publikacjach mediowych pojawiły się takie określenia, jak „Polskie boty to tumany”?
Czy gdyby nasz model był „tumanem”, to podczas wtorkowej konferencji NVIDII zostalibyśmy zaprezentowani jako jeden z najlepszych rozwiązań budujących europejską suwerenność? A czy NVIDIA wydałaby tzw. raport z treningów naszym zespołem trenującym? Ale odnosząc się do krytyki, wczoraj podczas prezentacji projektu Bielik AI, również na konferencji NVIDII, pokazaliśmy cytat z jednego z youtubowych influencerów, który powiedział: „Jest polski ChatGPT, nazywa się Bielik, i jest głupi”. To hasło dało nam taki rozgłos, że ludzie zaczęli nas testować. To dało nam gigantyczną wartość, bo dostaliśmy informacje zwrotne i dane do ulepszenia modelu. Druga wersja była dużo lepsza i trafiła do biznesu. Znów dostaliśmy mnóstwo informacji zwrotnych i znów ją ulepszyliśmy. Teraz mamy trzecią. Takie teksty budują zainteresowanie Bielikiem. Jest jeszcze jeden mechanizm, nazywany „postrzępioną granicą technologiczną”.
Różne zastosowania sztucznej inteligencji
To znaczy?
Wyjaśnię na przykładzie. Jeśli cofniemy się 30 lat w czasie, to użycie edytora tekstowego dawało ogromne możliwości. I bardzo szybko się zaadoptowało, bo było proste, a konkretne zadanie było wykonywane bardzo prosto. W AI granica jest bardzo postrzępiona. Załóżmy, że chcę wygenerować esej, wzorując się na jakimś pisarzu. Bielik zrobi to dobrze, bazując na tych lepiej znanych pisarzach. ChatGPT zrobi to dobrze, bazując na zdecydowanej większości pisarzy na świecie. Jeśli jednak zadamy proste zadanie: „A teraz napisz mi słowa discopolowej piosenki”, to nagle okazuje się, że wszystkie modele, także ChatGPT i Bielik, upadną. Bo modele językowe słabo radzą sobie z rymami. Są trenowane głównie na innych typach tekstów, inaczej operują sylabami, więc wychodzi strasznie słaba piosenka discopolo.
Paradoks?
Z esejem w stylu Hemingwaya sobie poradził, a z prostym częstochowskim rymem, który potrafi zrobić uczeń piątej czy szóstej klasy, już nie. Ta granica jest bardzo postrzępiona. Wydawałoby się, że zadanie o podobnej trudności, a nawet łatwiejsze, powinno AI pójść. A nie idzie.
Mówię to, bo dzięki krytyce możemy sprawdzać, z czym Bielik sobie radzi, a z czym nie. Wyznaczenie tej granicy jest niezwykle trudne.
PLLuM reaguje na kontrowersje
Zdaniem eksperta
PLLuM i realia świata AI
Zestawienie, bo – jak wspomniałam – nie ma tu mowy o żadnym obiektywnym teście czy badaniu, obejmuje wybrane, nieporównywalne modele dobrane bez jasno zdefiniowanego klucza, co już podważa jego sens. Do jednego worka wrzucono bowiem małe modele otwarte, duże modele komercyjne, a ponadto także niektóre modele z dostępem do sieci; w tym część to też modele komercyjne (płatne). Autor twierdzi, że taki zabieg obiektywizuje analizę (sic!), ponieważ rzekomo bierze po prostu „model ze strony”.
Równocześnie jednak zestawia rozwiązania działające na licencjach biznesowych i wyposażone w funkcje cytowania źródeł. Trudno oczekiwać, by mały model – zwłaszcza pod względem liczby parametrów – cytował tekst z taką samą skutecznością. Oczywiste jest, że inaczej działa model, który może bezpośrednio sięgać do źródeł online. Reasumując – taki test” nie ma charakteru naukowego, nie ma tu mowy o badaniu, które miałoby cokolwiek poddać obiektywnej ocenie. Brakuje podstawowych elementów, takich jak replikowalność, możliwość niezależnej weryfikacji czy peer review, w tym choćby ujawnienia dokładnych promptów wykorzystanych w takim badaniu.
Najważniejsze jest jednak to, że zestawienie całkowicie pomija istotne potrzeby, z myślą, o których powstają polskie modele, oraz specyfikę samych projektów. W przypadku PLLuM zasadniczym celem są przede wszystkim wdrożenia lokalne i na lokalnej infrastrukturze m.in. w administracji publicznej czy w rządowym mObywatelu. Są to modele specjalistyczne, domenowe, projektowane tak, by odpowiadać na konkretne potrzeby, by mogły być dalej dostrajane do określonych zastosowań. Dlatego porównywanie „modelu z czata” z takim modelem niewiele mówi o jego rzeczywistym działaniu w kontekście, do którego został stworzony.
Wystarczy spojrzeć choćby na modele PLLuM udostępniane na Hugging Face: różnią się one parametrami, etapem treningu, przeznaczeniem, licencją i poziomem dostrojenia. Obok modeli bazowych są tam modele instrukcyjne i modele poddane dalszemu treningowi na zbiorze preferencji (tzw. modele wychowane); służą różnym celom i nie powinny być wrzucane do jednego worka.
Właśnie w takim kontekście tworzy się modele suwerenne: nie po to, by konkurowały z największymi – w tym komercyjnymi – modelami ogólnego przeznaczenia w każdej możliwej kategorii, lecz po to, by dobrze sprawdzały się w konkretnych wdrożeniach domenowych, realizowały określone zadania, były bezpieczne i dostosowane do jasno zdefiniowanego kontekstu użycia.
Gdzie będzie rozwijał się Bielik
I kolejna wersja Bielika będzie umiała cytować „Pana Tadeusza”?
Cały czas rozwijamy Bielika. Chcemy, by stał się modelem europejskim. Od wersji 3.0 wykorzystujemy już 30 języków naturalnych. Chcemy teraz wypuścić Bielika 3.1, w którym architektura będzie taka sama, ale tych języków będzie ponad 40, łącznie z chińskim i arabskim. Chcemy też dodać model, który będzie analizował obrazy. Analizował, nie generował. Wracając do „Pana Tadeusza”, świetnie przeanalizuje którąś księgę, może następny Bielik będzie miał tak duże okno kontekstowe, że przeanalizuje całą książkę. Jednak to nie jest rola modelu, aby cytować. Bo wtedy łatwiej podłączyć Bielika do biblioteki narodowej i zacytuje każdą książkę.
Bardziej techniczny kierunek?
Tak, chcielibyśmy stworzyć cały zestaw biznesowy modeli od modelu wnioskującego po VLM (analiza obrazu), który pozwala od A do Z zbudować własne systemy AI. Na silniku Bielika. Tyle że do nieco innych celów, niż ogólnodostępne modele GenAI. Mamy też ciekawe doświadczenia po współpracy z NVIDIą. Udało nam się znacząco zmniejszyć zapotrzebowanie na moc obliczeniową przy operowaniu Bielikiem. Już teraz wystarczy do tego laptop z GPU, a nie cały serwer, przy niewielkiej utracie jakości. We wtorek, 17 marca, zaprezentowaliśmy to w Stanach Zjednoczonych. I teraz nasze rozwiązanie promuje NVIDIA.
Ofensywa Bielika
Kiedy możemy spodziewać się szerokiego opublikowania tych narzędzi?
Jeśli chodzi o model 3.1, ten językowy, to już go testujemy. Myślę, że premiera jest bardziej kwestią tygodni niż miesięcy. Natomiast w przypadku pozostałych modeli dopiero zaczynamy treningi. Zwyczajowo trwa to do sześciu miesięcy. Mam nadzieję, że w połowie roku te modele będą dostępne w formie kompletnej paczki. Wcześniej możemy publikować mniejsze rozwiązania.
Niedawno informowaliśmy o współpracy z Googlem przy objazdowych szkoleniach dla programistów. Dlaczego podjęliście z nimi współpracę? Usłyszałem już sporo negatywnych głosów o tym, że polska inicjatywa zostanie pośrednio „przejęta” przez amerykańskiego giganta, chociażby po to, by przekonać programistów do korzystania z jej rozwiązań.
Trochę inaczej rozumiem suwerenność technologiczną.
Czy polskie AI zostanie przejęte
To znaczy?
Rozumiem suwerenność technologiczną nie jako: „odłączmy się od wszystkich i róbmy swoje”. Cały polski biznes jest niestety albo „stety” osadzony w Google’u, w Azure i innych firmach. Dla mnie suwerenność technologiczna to działanie na własnych zasadach. Jeśli potrzebuję przetworzyć dane wrażliwe, mogę uruchomić Bielika na własnej infrastrukturze. Jeśli chcę generować śmieszne obrazki, to taniej jest użyć Microsoftu czy Google`a. Ponadto jesteśmy agnostyczni technologicznie. Zachęcamy do uruchamiania Bielika na własnej infrastrukturze. Na chmurze. W polskich fabrykach AI.
Nie boi się pan, że Google wykorzysta wasze szkolenia i kontakty do promocji własnych narzędzi?
Eskadry z chmurą, bo o tym mówimy, pod różnymi nazwami będą uruchamiane z innymi partnerami, którzy udostępniają GPU bardzo lokalnie. W tym z polskimi fabrykami AI. Jeśli mamy w ogóle rozpocząć rozmowę o suwerenności, to na razie musimy być technologicznie agnostyczni. Jeśli nie będziemy współpracowali z firmami, które są używane przez biznes, to nie będziemy mogli pomóc temu biznesowi.
Jak nie stracić kontroli
Amerykańskie big techy działają jednak tak, że podpinają się pod różne inicjatywy lokalne, które rosną na fali patriotyzmu gospodarczego i w różny sposób je przejmują. Bielika to nie czeka?
Nie i pokazał to Bielik Summit. Mieliśmy mnóstwo przykładów udanych wdrożeń. Jednakowo polskich organizacji, firm AI czy mniejszych biznesów technologicznych. Ale było też AMD, NVIDIA, HPE, Dell, Beyond.pl, Google czy Microsoft i wiele innych firm polskich i zagranicznych. Naszym celem jest osiągnięcie poziomu, dzięki któremu Bielik będzie mógł zostać uruchomiony wszędzie. Jeśli miałbym się czegoś obawiać, to tego, że big techy podbiorą osoby trenujące modele. Dlatego staramy się angażować w ambitne projekty, które spełnią oczekiwania naszych talentów. Polacy przecież nie uciekają do big techów tylko ze względu na wysokie zarobki, ale też dlatego, że tam są ambitne projekty.
I tu też mam problem z taką bezrefleksyjną krytyką. To niszczy motywację. Polscy super specjaliści chcą robić ambitne rzeczy pro publico bono, a tu nagle wychodzi ktoś i mówi: „Nie, no co wy, źle to zrobiliście, może zajmijcie się czymś innym”. To jest bardzo szkodliwe. A musimy szukać ambitnych projektów i tak się bronić przed big techami, żeby specjaliści nam nie uciekali.
I jest pan zadowolony z Bielika?
W tym miesiącu pobrano modele ponad 400 tys. razy. Mistral 14B, czyli dużo większy model, ma ich mniej, niż my. Wszystkie modele Bielik pobrały się dwa miliony razy! Bez żadnej płatnej promocji. Czy model jest słaby, jeśli ludzie go pobierają? Mimo że do tego wymagana jest pewna wiedza i umiejętności? Czy model nie ma przyszłości, skoro pokazuje go NVIDIA w najważniejszym wystąpieniu swojego prezesa? Zgadzam się, że jest jeszcze mnóstwo do zrobienia. I będziemy to nadal robili.
Jak rozwijać lokalne inicjatywy
Zdaniem eksperta
Emocje a realia sztucznej inteligencji
W dyskusji pomija się prywatność. Polskie banki korzystają z Bielika właśnie dlatego, że gwarantuje on bezpieczeństwo. Model z otwartymi wagami pozwala na kontrolę nad informacjami, które nigdy nie opuszczają serwerów instytucji.
Podobnie wygląda sytuacja z PLLuM. Od samego początku nie miał to być model ogólnego przeznaczenia do wygrywania testów ze znajomości poezji, ale silnik napędowy dla interaktywnych funkcji w aplikacji mObywatel oraz wsparcia przyszłych wdrożeń w administracji publicznej.
Zdolność wygenerowania długiego eseju czy wygrania testu ze znajomości literatury nie świadczy o przydatności w biznesie. W środowisku korporacji liczy się precyzja w konkretnych zadaniach i kontrola nad informacją. Do tego mniejsze, wyspecjalizowane silniki nadają się znacznie lepiej niż chmurowe giganty.
Zamiast narzekać na pozycje w rankingach, należy docenić to, co robi zespół Bielika. Bez wielkich budżetów, opierając się o darmową moc obliczeniową Cyfronetu, stworzyli wydajne narzędzie.
Zeszłoroczne spotkanie w Kluczborku z Wojciechem Zarembą z OpenAI utwierdziło mnie w przekonaniu, o co toczy się gra. Zapytałem go o przyszłość takich otwartych inicjatyw. Odpowiedź była jasna: budowanie własnych modeli tworzy na rodzimym rynku kompetencje. Kto wie, jak zbudować silnik od zera, bez problemu obsłuży, zmodyfikuje i wdroży każdy inny.
Najlepszym dowodem uznania dla polskiej myśli technologicznej nie są teoretyczne testy, ale uznanie branży. Właśnie w tym momencie Paweł Kiszczak stoi na scenie w San Jose podczas konferencji NVIDIA i z dumą prezentuje Bielika światu.
Przestańmy przepraszać za to, że robimy rzeczy inaczej. Zamiast tego rzucam wyzwanie decydentom i biznesowi: zacznijcie odważnie wdrażać nasze, bezpieczne modele tam, gdzie mają przewagę, i zacznijcie budować niezależność technologiczną na fundamentach, które już mamy.
Nie mierzmy innych swoją miarą. Mają inny wzrost.
Główne wnioski
- Sebastian Kondracki podkreśla, że porównywanie modeli takich jak Bielik z globalnymi systemami pokroju ChatGPT jest często nieadekwatne, ponieważ pełnią one różne funkcje i operują w odmiennych warunkach. Duże modele mają przewagę skali, dostępu do internetu i zaawansowanych mechanizmów wnioskowania, co przekłada się na lepsze wyniki w zadaniach ogólnych czy kreatywnych. Bielik jest natomiast modelem kompaktowym, zaprojektowanym głównie do zastosowań biznesowych, szczególnie w pracy z językiem polskim i danymi wrażliwymi. W tych obszarach, według rozmówcy, osiąga wyniki porównywalne z większymi modelami, mimo znacznie mniejszej liczby parametrów.
- Krytyczne raporty porównawcze mogą zawierać błędy metodologiczne, które wpływają na ich wyniki. Kluczowym problemem ma być zestawianie modeli o różnych konfiguracjach, np. takich z dostępem do internetu z tymi, które działają wyłącznie na wbudowanej wiedzy. W efekcie testy nie mierzą realnych możliwości modeli, lecz raczej sposób ich użycia. Rozmówca zaznacza również, że w wyspecjalizowanych zadaniach, takich jak analiza prawna czy kompetencje językowo-kulturowe w języku polskim, Bielik może przewyższać większe modele, co potwierdzają wybrane benchmarki i wdrożenia.
- Bielik rozwijany jest jako narzędzie do budowy systemów AI w środowiskach biznesowych, gdzie kluczowe znaczenie ma kontrola nad danymi i możliwość dostosowania modelu do konkretnych potrzeb. Autor wskazuje, że w wielu przypadkach użycie dużych, zewnętrznych modeli może być bardziej opłacalne, ale przy bardziej złożonych wdrożeniach lokalne rozwiązania, takie jak Bielik, oferują większą elastyczność i bezpieczeństwo. Jednocześnie rozwój modelu trwa, obejmując nowe języki, funkcje analizy obrazu oraz optymalizację wymagań sprzętowych, co ma zwiększyć jego dostępność i zastosowanie.
