Bielik w nowym wydaniu. Polski model GenAI prezentuje się w Paryżu
Powstała nowa rodzina polskich modeli generatywnej sztucznej inteligencji Bielik. Zespół SpeakLeash prezentuje je właśnie w Paryżu, na targach GOSIM.
Z tego artykułu dowiesz się…
- Dlaczego polski model sztucznej inteligencji może lepiej rozumieć nasz język niż ChatGPT czy Gemini – i co ma z tym wspólnego specjalny „tokenizer”.
- Jak Bielik potrafi samodzielnie planować działania i korzystać z narzędzi online, by załatwiać sprawy szybciej niż niejeden asystent.
- W jaki sposób AI nauczone po polsku może zautomatyzować pracę urzędów, redakcji i firm – generując dane, raporty czy decyzje w czasie rzeczywistym.
Nowa rodzina składa się obecnie z trzech modeli GenAI. To Bielik 3.0 w wersji 1.5B i 4.5B (numery te oznaczają liczbę parametrów, które stanowią fundament modelu) oraz Bielik 2.5 - 11B.
Prezentacja modeli odbyła się podczas pierwszego dnia międzynarodowej konferencji GOSIM AI w Paryżu.
- Chcemy pokazać, że dążymy do tego, by stać się globalnym i rozpoznawalnym europejskim projektem open source – powiedział Sebastian Kondracki, prezes fundacji SpeakLeash i współtwórca Bielika.AI.
Co wnoszą nowe modele Bielik
Modele 3.0 bazują na architekturze Qwen 2.5 i zostały wyposażone w nowy tokenizer. To mechanizm, który dzieli tekst na jednostki zrozumiałe dla modelu (np. słowa, frazy lub ich fragmenty). Został on zoptymalizowany specjalnie pod język polski, co przekłada się na szybsze i trafniejsze generowanie wypowiedzi. Z kolei Bielik 2.5 – 11B, oparty na architekturze Mistral, obsługuje formaty strukturalne (np. JSON), potrafi wnioskować (choć na razie w fazie eksperymentalnej) i współpracuje z zewnętrznymi narzędziami. Wszystko to w pełni otwarcie i dostępnie.
Po pierwsze nowe modele Bielika zostały wyposażone w nowy tokenizer potrafiący sprawnie obsługiwać język polski. Brzmi skomplikowanie, ale chodzi o to, że model został dostosowany do tego, by lepiej rozumieć język polski. Do tego na bardzo podstawowym poziomie. Czyli na etapie dzielenia tekstu na fragmenty, które komputer potrafi przetwarzać. W przypadku języka angielskiego to relatywnie proste, bo składa się on głównie z krótkich słów i ma dość prostą gramatykę. Polski jest znacznie trudniejszy – mamy deklinacje, fleksję, złożone formy czasowników czy słowa z przedrostkami i przyrostkami. Tokenizer, który dobrze „zna” język polski, potrafi więc właściwie rozdzielić słowa i ich znaczeniowe części. Dzięki temu model AI lepiej rozumie intencję wypowiedzi. To przekłada się na trafniejsze, bardziej naturalne odpowiedzi, a także lepszą jakość analizowania tekstu pisanego przez człowieka.
Polskie AI lepiej dostosowane do potrzeb
Po drugie nowe modele zostały wyposażone w "tool use", czyli możliwość wywoływania zewnętrznych narzędzi. Przykładowo, wyszukiwarek internetowych czy baz danych. To ogromny krok naprzód w porównaniu do klasycznych chatbotów. Te mogły udzielać odpowiedzi jedynie w oparciu o to, co same „wiedziały” na etapie trenowania. Dzięki możliwości wywoływania zewnętrznych narzędzi AI może dynamicznie pozyskiwać nowe informacje lub wykonywać dodatkowe operacje. Przykładowo, jeśli użytkownik zapyta o aktualny kurs dolara albo prognozę pogody na weekend, model nie musi zgadywać ani opierać się na danych sprzed kilku miesięcy. Może bowiem sięgnąć po aktualne źródła i udzielić precyzyjnej, aktualnej odpowiedzi.
Trzecia nowość to wprowadzenia "structured output", czyli odpowiedzi gotowych do automatycznego przetwarzania. Chodzi o możliwość tworzenia odpowiedzi w uporządkowanym, przewidywalnym formacie. Dla przeciętnego użytkownika może to brzmieć jak techniczny szczegół. W praktyce oznacza to, że AI nie odpowiada tylko tekstem przypominającym rozmowę człowieka z człowiekiem, ale może też generować dane w formacie np. JSON, CSV czy tabel.
Dzięki temu odpowiedzi mogą być natychmiast wykorzystane przez inne systemy. Na przykład aplikacje analizujące dane, systemy raportujące, bazy danych czy automatyczne narzędzia do zarządzania projektami.
Bilik gotowy na agentów
To być może najważniejszy punkt w nowej generacji Bielików.
- Tool use i zalążek modelu wnioskującego to bardzo ważny element w rozwoju Bielika. Dzięki temu oraz możliwościom uruchomienia modeli na dowolnej, nawet niewielkiej infrastrukturze, agent readiness staje się faktem. Co więcej, małe modele można łatwo dostroić. Dlatego agent do zadań specjalnych może być dziś dostępny dla każdego – ocenia Remigiusz Kinas, szef działu R&D projektu Bielik.
W praktyce oznacza to, że model potrafi nie tylko odpowiadać na pytania. Może także samodzielnie planować, podejmować decyzje i wykonywać złożone zadania krok po kroku. Niemal jak cyfrowy asystent. W tradycyjnym podejściu użytkownik musiał każdorazowo wskazywać kolejne polecenia, a AI odpowiadało w sposób bierny. Teraz możliwe jest stworzenie systemu, w którym sztuczna inteligencja „rozumie”, co ma zrobić. Ponadto ustala plan działania, korzysta z dostępnych narzędzi i sama dąży do osiągnięcia celu.
Przykładowo, jeśli poprosimy o przygotowanie prezentacji na podstawie danych z arkusza kalkulacyjnego, AI-agent może sam pobrać dane. Dodatkowo, potrafi je przeanalizować, stworzyć slajdy, zapisać dokument i wysłać go e-mailem. To ogromny potencjał w biznesie, edukacji, dziennikarstwie czy administracji – wszędzie tam, gdzie ważna jest szybkość działania i automatyzacja procesów.
- W małych modelach wymieniliśmy tokenizer i wypróbowaliśmy zupełnie nową architekturę, natomiast w wersji v2.5 dodaliśmy eksperymentalnie elementy modelu wnioskującego. Chcemy zebrać mocny feedback i zaproponować już za chwilę całkowicie nową wersję Bielika – zapowiada Krzysztof Ociepa, lider zespołu trenującego modele Bielik.
Zespół Bielika poleciał do Francji
Premiera nowych modeli Bielika odbywa się w ramach konferencji GOSIM AI Paris – wydarzenia promującego globalne innowacje open source w AI. Wyjazd oraz premiera modeli Bielik odbywają się pod honorowym patronatem Ministerstwa Cyfryzacji.
- Skoro jesteśmy w Paryżu i mamy okazję uczyć się od największych przedstawicieli otwartych projektów, takich jak PyTorch, Linux Foundation, vLLM, sglang, llama.cpp, jan.ai i wielu innych, to właśnie stąd ogłosimy premiery naszych nowych modeli– powiedział Sebastian Kondracki, prezes fundacji SpeakLeash i współtwórca Bielika.AI.
Bielik, czyli polska odpowiedź na GenAI
Model Bielik to zaawansowany polski model językowy nowej generacji, oparty na technologii generatywnej sztucznej inteligencji (GenAI). Powstał z myślą o wysokiej jakości przetwarzaniu języka naturalnego w języku polskim. Bielik należy do klasy dużych modeli językowych (LLM – Large Language Models). Na świecie do najbardziej znanych modeli należą: GPT od OpenAI, Claude od Anthropic czy Gemini od Google. Bielik został zaprojektowany i dostrojony specjalnie z myślą o potrzebach użytkowników w Polsce.
Bielik powstał jako owoc prac zespołu działającego w ramach Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. Projekt Bielik jest częścią szerszej strategii budowania niezależnych, lokalnych rozwiązań AI, które są bardziej dostosowane do języka, kontekstu kulturowego i realiów prawnych obowiązujących w Polsce oraz w Unii Europejskiej.
Bielik powstał we współpracy z polskimi naukowcami i inżynierami, a także z wykorzystaniem otwartych źródeł danych, m.in. z domeny publicznej. Jego twórcy kładą szczególny nacisk na transparentność, etyczność i zgodność z europejskimi regulacjami dotyczącymi rozwoju sztucznej inteligencji.
Prace nad modelem Bielik rozpoczęły się w 2023 roku jako odpowiedź na rosnące zainteresowanie narzędziami AI w sektorze publicznym, edukacyjnym i biznesowym w Polsce. Dotychczasowe globalne modele, choć bardzo zaawansowane, często traktowały język polski jako marginalny. Wpływało to na jakość generowanych treści, rozumienie niuansów językowych czy interpretację kontekstu kulturowego. Bielik miał wypełnić tę lukę.
Główne wnioski
- Bielik to pierwszy zaawansowany model GenAI stworzony z myślą o języku polskim – teraz w jeszcze lepiej dopracowanej wersji. Nowe wersje modeli Bielik – 3.0 (w wariantach 1.5B i 4.5B) oraz 2.5 (11B) – zostały zaprojektowane z uwzględnieniem specyfiki języka polskiego, a kluczową innowacją jest wprowadzenie nowego, dedykowanego tokenizera. To komponent, który „rozbija” tekst na części zrozumiałe dla AI – dzięki temu model lepiej rozumie złożoną gramatykę, fleksję i składnię języka polskiego. Przekłada się to bezpośrednio na jakość generowanych wypowiedzi: są bardziej naturalne, trafne i spójne z kontekstem, co ma ogromne znaczenie w zastosowaniach profesjonalnych – od analityki po media.
- Bielik potrafi korzystać z narzędzi zewnętrznych i tworzyć uporządkowane dane – to krok w stronę profesjonalnej automatyzacji. Nowe modele Bielika wprowadzają funkcję tool use, czyli możliwość sięgania po zewnętrzne źródła danych – np. wyszukiwarki, API czy bazy danych – co pozwala im odpowiadać na pytania w oparciu o aktualne informacje, a nie tylko o dane z treningu. Dodatkowo pojawia się możliwość generowania uporządkowanych danych (structured output) w formacie JSON, CSV lub tabel, co umożliwia bezpośrednią integrację z systemami analitycznymi, raportującymi czy aplikacjami biznesowymi. Dzięki temu Bielik może wspierać zautomatyzowane procesy decyzyjne w firmach, instytucjach publicznych czy mediach.
- Nowe modele Bielik są gotowe do działania jako cyfrowi agenci – planują, podejmują decyzje i wykonują zadania. Najnowsze wersje Bielika zostały zaprojektowane z myślą o tzw. agent readiness – czyli gotowości do działania jako samodzielni cyfrowi agenci AI. Oznacza to, że modele nie tylko odpowiadają na pojedyncze pytania, ale potrafią realizować złożone zadania krok po kroku, planować działania i korzystać z dostępnych narzędzi w sposób autonomiczny. Przykładowo, mogą przygotować prezentację na podstawie danych z arkusza, przeanalizować dane, stworzyć slajdy i wysłać gotowy dokument – wszystko to bez potrzeby ręcznego nadzoru. To przełomowy krok w kierunku realnych zastosowań AI w codziennej pracy biurowej, edukacyjnej i administracyjnej.
