Polski model AI przyspiesza. Tej technologii użyto pierwszy raz w Polsce

Bielik.AI ma odpowiadać szybciej i zużywać mniej tokenów. To zaś przełoży się na oszczędności firm korzystających z polskiego modelu sztucznej inteligencji.

Fundacja SpeakLeash, która rozwija rodzinę Bielika, stworzyła bowiem razem z Akademickim Centrum Komputerowym Cyfronet AGH dwa nowe modele draftowe. Pierwszy raz w Polsce informatycy użyli technologii DFlash, zwiększając efektywność Bielika i Bielika Minitron.

Twórcy Bielika zastosowali bowiem autorskie podejście, za które odpowiada Krzysztof Ociepa, Head of Model Training w Bielik.AI.

– Stworzyliśmy rozwiązanie oparte na algorytmie DFlash, które pozwala znacząco zwiększyć przepustowość inferencji. Jest to szczególnie istotne dla firm budujących produkty AI, które obsługują tysiące użytkowników jednocześnie. Dzięki uruchamianiu Bielika wraz z nowymi modelami draftowymi przedsiębiorstwa będą mogły kilkukrotnie skrócić czas generowania odpowiedzi oraz obniżyć koszty infrastruktury – wyjaśnił Ociepa.

Metoda DFlash to jedna z najnowszych technik dekodowania spekulatywnego. Pozwala ona na optymalizację AI przez przyspieszenie modeli bez pogarszania jakości ich odpowiedzi. Polega ona na połączeniu pracy dwóch modeli – lekkiego modelu draftowego z modelem docelowym. Pierwszy z nich nie proponuje pojedynczych słów, lecz całe fragmenty wypowiedzi, a drugi błyskawicznie poddaje je weryfikacji, a nie tworzy odpowiedź od podstaw.

Kolejne odejście z Google DeepMind. Noblista John Jumper przechodzi do Anthropic