Pilne
Sprawdź relację:
Dzieje się!
Biznes Technologia

Elevenlabs publikuje nowy model GenAI i rzuca wyzwanie big techom. Eleven v3 potrafi szeptać, śmiać się i śpiewać

Polski startup Elevenlabs opublikował właśnie zupełnie nowy model swojej technologii, Eleven v3. Wyścig z amerykańskimi gigantami trwa w najlepsze.

ElevenLabs Piotr Dabkowski Mati Staniszewski
Celem twórców ElevenLabs jest teraz globalna ekspansja technologii. W tym celu powstały biura: w Polsce i Indiach. Mati Staniszewski (z lewej) i Piotr Dąbkowski stworzyli startup ElevenLabs warty miliony dolarów. Jest także liderem w rozwoju generatywnej AI w obszarze dźwiękowym. Fot. Marek Zawadka

Z tego artykułu dowiesz się…

  1. Jak nowy model ElevenLabs zmienia zasady gry w technologii głosu i jakie możliwości oferuje.
  2. Dlaczego Eleven v3 to technologiczny skok na skalę globalną – z obsługą ponad 70 języków i planami zastosowania w czasie rzeczywistym, np. w call center.
  3. Jak światowi giganci – Google, Amazon i Microsoft – odpowiadają na rewolucję z Polski – i kto dziś naprawdę prowadzi w wyścigu na najbardziej naturalne głosy AI.

Jak deklarują twórcy ElevenLabs, jest to najbardziej ekspresyjny model text-to-speech, czyli technologii pozwalającej na generowanie dźwięków w oparciu o wpisany tekst. Nowy model obsługuje ponad 70 języków. To o prawie 40 więcej, niż poprzednie modele i od dziś dostępny jest dla użytkowników w wersji alpha.

– Eleven v3 to najbardziej ekspresyjny model text-to-speech w historii. Umożliwia pełną kontrolę nad emocjami, sposobem wypowiedzi oraz niewerbalnymi sygnałami. Dzięki tagom audio możemy sprawić, by model szeptał, śmiał się, zmieniał akcent, a nawet śpiewał – komentuje Mati Staniszewski, współzałożyciel ElevenLabs.

Elevenlabs i Eleven v3. Co potrafi nowy model?

Eleven v3 powstał w oparciu o zupełnie nową architekturę. Potrafi zmieniać tonację w trakcie zdania, płynnie przechodzić między postaciami i reagować na znaczniki takie jak (szept), (śmiech) czy (westchnienie). Jak deklarują twórcy startupu, wszystko bez utraty naturalności i ciągłości wypowiedzi.

– Możemy też precyzyjnie sterować tempem, emocjami i stylem, by dopasować je do każdego scenariusza. Zgodnie z naszą misją, zwiększyliśmy liczbę obsługiwanych języków do ponad 70. To wszystko jest efektem wizji i zaangażowania mojego współzałożyciela Piotra oraz wybitnego zespołu researcherów. Budowanie dobrych produktów jest trudne, a otwieranie zupełnie nowego rozdziału w rozwoju technologii niemal niemożliwe. Wszyscy w ElevenLabs jesteśmy szczęśliwi, mogąc obserwować, jak ten zespół wnosi magię do naszego życia, a wraz z tą premierą ponownie przesuwamy granice tego, co możliwe – dodaje Mati Staniszewski.

Jak deklarują twórcy startupu, nowy model wymaga o wiele bardziej zaawansowanej i precyzyjnej pracy z promptami niż poprzednie modele. Rezultat to wyraźny skok jakościowy w ekspresji, niuansach i realizmie generowanej mowy.

Eleven v3 pokrywa 90 proc. populacji świata pod względem użytych języków. Ma także tryb dialogu, generujący naturalne przerwy i emocje płynące z rozmów. Umożliwia obsługę tagów audio (przez odpowiednie hasła).

Jak deklarują twórcy startupu, niebawem pojawi się obsługa streamingu modelu dla call center i agentów konwersacyjnych działających w czasie rzeczywistym.

Elevenlabs i rozwój technologii

Jak informowaliśmy w kwietniu, startup ElevenLabs uruchamił polską wersję aplikacji ElevenReader, umożliwiającej odsłuchiwanie książek i czasopism. Jest to tylko jeden z wielu punktów, na które nacisk kładą twórcy firmy.

Ekspansja technologii polskiej firmy jest możliwa dzięki megarundzie finansowania, którą Elevenlabs zamknął na na początku 2025 r. Firma pozyskała łącznie 180 mln dolarów, osiągając wycenę 3,3 mld dolarów.

Pozyskane fundusze pozwolą na rozwój kolejnego etapu audio AI i badania nad bardziej ekspresyjnymi i łatwiejszymi w kontroli modelami głosowymi. Jednocześnie dzięki finansowaniu ElevenLabs będzie dalej rozszerzać katalog i funkcjonalność narzędzi dla deweloperów i firm oraz wzmacniać bezpieczeństwo produktu.

Google walczy z polskim startupem

Rozwój technologii pozwalającej na generowanie dźwięków na bazie tekstu (text-to-speech) jest jednym z ważnych punktów postępującego wyścigu światowych gigantów w obszarze sztucznej inteligencji. Przykładowo, w marcu 2025 roku Google ogłosiło rozszerzenie dostępności głosów HD (Chirp 3) w usłudze Cloud Text-to-Speech. Dodano osiem nowych głosów obsługujących 31 lokalizacji językowych, w tym język polski. Głosy te są dostępne w regionach globalnych, USA, UE i Azji Południowo-Wschodniej. Nowe głosy mają bardziej naturalne brzmienie i lepszą jakość dźwięku.

To nie jedyny obszar, nad którym pracują inżynierowie Google. W ostatnich miesiącach Google Research opracowało model Voice Transfer (VT), który umożliwia tworzenie spersonalizowanych głosów w systemach TTS. Technologia ta pozwala na odtworzenie głosu konkretnej osoby na podstawie kilku sekund nagrania. Jest to szczególnie przydatne dla osób, które straciły zdolność mówienia z powodu chorób takich jak ALS czy Parkinson. Model wspiera zarówno tryb few-shot, jak i zero-shot, co oznacza, że może działać nawet przy minimalnej ilości danych treningowych.

Technologia ta może być integrowana z multimodalnymi systemami AI, takimi jak Gemini i Veo3. Możliwości zaprezentowano podczas konferencji Google I/O 2025. System AIW praktyce pozwala to na interaktywne rozmowy z AI w czasie rzeczywistym, z wykorzystaniem kamery i mikrofonu. System potrafi analizować obraz i dźwięk, a następnie generować odpowiedzi w formie mowy. Google zintegrowało także technologię TTS z systemem Android Auto, umożliwiając kierowcom interakcję głosową z pojazdem.

Co się dzieje na rynku technologii text-to-speech

W ostatnich trzech miesiącach technologia text-to-speech była rozwijana także u innych gigantów. Na przełomie marca i kwietnia Amazon wprowadził model Nova Sonic. To model zaprojektowany do przetwarzania mowy w czasie rzeczywistym i bardziej naturalnej konwersacji AI. Nova Sonic jest dostępny poprzez platformę Amazon Bedrock i już działa w nowym asystencie Alexa Plus .

Ponadto, Audible, należące do Amazona, udostępniło nowe narzędzia AI, które umożliwiają wydawcom szybkie tworzenie audiobooków z wykorzystaniem biblioteki ponad 100 głosów AI w różnych językach i dialektach. Planowane jest również wprowadzenie narzędzi do tłumaczenia AI, które zachowują oryginalny głos i styl narratora .

W 2024 roku Microsoft zaprezentował model VALL-E 2, który osiąga parytet z ludzką mową w syntezie TTS bez potrzeby treningu na konkretnym głosie. Model ten pozwala na stabilne i naturalne generowanie mowy, nawet w przypadku skomplikowanych lub powtarzających się fraz. Ponadto Azure AI Speech wprowadziło niedawno ulepszenia w swoich głosach HD, dodając 14 nowych głosów i aktualizując 13 istniejących, z naciskiem na lepszą ekspresję emocji i naturalność mowy.

Technologie są także wykorzystywane w praktyce. Domino's Pizza wdrożyło technologię AI voice, opracowaną przez Rime Labs, do obsługi około 80 proc. zamówień telefonicznych w Ameryce Północnej. System wykorzystuje nagrania naturalnych rozmów. Pozwala to na realistyczne i lokalnie dostosowanie głosu, takiego, jak południowe akcenty czy afroamerykańska odmiana angielskiego.

Główne wnioski

  1. Nowy model ElevenLabs wyznacza nowy standard ekspresji głosowej w AI. Eleven v3 to model text-to-speech, oferujący wysoki poziom kontroli nad emocjami, stylem i niuansami mowy – od szeptu po śpiew. Obsługuje ponad 70 języków. Umożliwia generowanie realistycznych dialogów, co stawia go w czołówce rozwiązań głosowych na świecie.
  2. Potężne finansowanie napędza globalną ekspansję polskiego startupu. Dzięki rundzie finansowania na poziomie 180 mln dolarów i wycenie 3,3 mld, ElevenLabs nie tylko rozwija kolejne generacje audio AI, ale też umacnia swoją pozycję na globalnym rynku i rozszerza ofertę dla firm, deweloperów i użytkowników końcowych.
  3. Walka o dominację w TTS trwa – giganci nie zostają w tyle. Google, Amazon i Microsoft intensyfikują prace nad własnymi modelami TTS. Integrują je z multimodalnymi systemami AI, usługami chmurowymi i produktami konsumenckimi. Wyścig technologiczny nabiera tempa. Rynek audio AI staje się jednym z kluczowych frontów innowacji.