Warszawa usłyszała przyszłość AI. ElevenLabs pokazał nowy model, a Karol Nawrocki mówił o polskim sukcesie
ElevenLabs chce, by sztuczna inteligencja przestała brzmieć jak maszyna. Podczas wystąpienia na ElevenSummit w Warszawie Mati Staniszewski pokazał zapowiedź nowego modelu v4, który ma mówić nie tylko płynniej, lecz także z emocją, intencją, akcentem, szeptem i śpiewem.
Z tego artykułu dowiesz się…
- Jak ElevenLabs chce sprawić, by głos stał się jednym z najważniejszych sposobów kontaktu człowieka ze sztuczną inteligencją.
- Dlaczego nowy model v4 i dubbingowy D2 mogą zmienić sposób, w jaki AI mówi, tłumaczy i oddaje emocje.
- W jaki sposób polska firma próbuje przekuć globalny sukces technologiczny w konkretne zastosowania dla biznesu, administracji i usług publicznych.
Dla założyciela jednej z najważniejszych firm AI na świecie stawką nie jest już samo generowanie syntetycznej mowy, ale stworzenie warstwy komunikacyjnej dla całej gospodarki.
– Możesz zbudować inteligentny system, ale jeśli twoja AI brzmi robotycznie, nie będzie do niej zaufania – mówił Mati Staniszewski, twórca ElevenLabs, na deskach Teatru Wielkiego w Warszawie.
W jego wizji głos ma stać się podstawowym interfejsem do świata sztucznej inteligencji: od obsługi klienta i rezerwacji lotów po ochronę zdrowia, edukację i turystykę. I ma na to konkretne dowody.
ElevenLabs postawi na nowy model AI
ElevenLabs, jedna z najbardziej rozpoznawalnych firm świata w dziedzinie generatywnego audio, przygotowuje nowy model text-to-speech oznaczany jako v4. Mati Staniszewski w czasie wystąpienia pokazał jego zapowiedź jako „exclusive preview” – pierwszą publiczną demonstrację próbek, które, według niego, mają wyznaczać kolejny etap rozwoju syntetycznego głosu.
– Ten model nie został jeszcze udostępniony. To ekskluzywny pokaz. Pierwszy raz pokazujemy jego próbki komukolwiek – mówił twórca ElevenLabs ze sceny.
Chwilę później publiczność usłyszała głosy prowadzące dialog o Warszawie: mieście „starym i nowym jednocześnie”, pełnym historii, ale „nigdy nie stojącym w miejscu”. Był to pokaz możliwości nowego silnika mowy: zmiany akcentu, szeptu, emocji, a nawet śpiewu.
– To są głosy na zupełnie nowym poziomie. Możesz nimi sterować. Możesz uzyskać emocje, których wcześniej nie dało się uzyskać. Od szeptu po śpiew – jakość będzie dalej udoskonalana, ale już teraz widać, jak niezwykły może być głos – przekonywał Mati Staniszewski.
ElevenLabs, czyli jak firma wyrosła z Warszawy
Mati Staniszewski przypomniał, że gdy jego firma powstawała w 2022 r., większość branży koncentrowała się na „rozwiązywaniu inteligencji”. ElevenLabs uznało, że wąskim gardłem będzie komunikacja. Naturalna ludzka komunikacja będzie krytyczna, by odblokować ogromne korzyści płynące z AI: przełamać bariery językowe, udostępnić informacje i idee oraz stworzyć zupełnie nowe sposoby interakcji z technologią.
Dlatego ElevenLabs chce być nie tylko dostawcą efektownych głosów do filmów, reklam czy audiobooków, ale także budować warstwę komunikacyjną dla firm, administracji i konsumentów. W ten sposób rozwijana jest czwarta wersja modelu ElevenLabs.
Gdzie zmierza ElevenLabs
– Naszym celem jest zbudowanie AI, która komunikuje się na ludzkim poziomie w każdym kanale życia – powiedział Mati Staniszewski.
Podczas prezentacji ElevenLabs pokazało nie tylko nadchodzący model v4, lecz także nowy model dubbingowy D2. Mati Staniszewski przypomniał, że inspiracją dla firmy były m.in. filmy dubbingowane na język polski w sposób, w którym „każdy głos, każda postać i każda emocja brzmią tak samo”. D2 ma być odpowiedzią na ten problem.
– D2 rozwiązuje jeden z największych problemów tradycyjnego AI dubbingu: płaską ekspresję – mówił twórca ElevenLabs.
Zamiast generować wypowiedź wyłącznie z transkryptu, model ma wykorzystywać oryginalne audio. Ponieważ model słyszy oryginalną emocję i oryginalne wykonanie, może przenieść je do nowego języka.
Mati Staniszewski połączył ten wątek z szerszą architekturą produktową ElevenLabs. Firma rozwija platformę obejmującą narzędzia dla twórców, agentów głosowych i API [ang. application programming interface, czyli sposób komunikacji między różnymi programami – przyp. red.]. ElevenLabs Creative służy więc do produkcji treści: projektowania „głosu marki”, lokalizacji materiałów w obrazie, wideo i audio oraz budowania powtarzalnych procesów. ElevenLabs Agents ma być z kolei środowiskiem do tworzenia konwersacyjnych doświadczeń: obsługi klienta, sprzedaży, wsparcia technicznego, zdrowia, turystyki czy edukacji. Firma twierdzi, że jej agenci obsługują już miliony interakcji dziennie.
– Jedna platforma oznacza jedno spójne, przyjemne doświadczenie marki w każdym punkcie kontaktu z klientem. Od marketingu, który wzbudza zainteresowanie, przez agenta sprzedażowego, po agenta wsparcia, który pomaga rozwiązać problem – mówił Mati Staniszewski.
Twórca ElevenLabs zaprezentował konkretne rozwiązania. Jako użytkownik rozmawiał z asystentem turystycznym planującym jednodniową wizytę w Warszawie. Agent proponował trasę, rozpoznał przesłane zdjęcie Teatru Narodowego, pomógł wybrać przedstawienie, a następnie uwzględnił wcześniejsze preferencje, kalendarz i liczbę znajomych.
Polska firma podjęła współpracę z greckim rządem. Pomoże w promocji turystyki
Mati Staniszewski zaznaczył, że przykład turystycznego asystenta nie jest tylko koncepcyjną scenką.
– W zeszłym tygodniu podpisaliśmy partnerstwo z greckim rządem, by budować agentów głosowych dla turystyki – powiedział przedsiębiorca.
Jego zdaniem podobne rozwiązania mogą zmienić sposób, w jaki obywatele, klienci i pacjenci korzystają z usług. Podawał także inne przykłady zastosowań komercyjnych. W kwalifikacji leadów agent może reagować natychmiast, zanim potencjalny klient straci zainteresowanie. Przykładowo, w ochronie zdrowia może przypominać o lekach, umawiać wizyty, wykonywać kontrole po wypisie ze szpitala i kontaktować się z pacjentem w jego języku. W telekomunikacji może wspierać rozmowy i tłumaczenia w czasie rzeczywistym, a w edukacji może umożliwiać rozmowę z cyfrowym instruktorem.
– Wchodzimy w złotą erę klienta. Ta przyszłość nie jest tak odległa, jak mogłoby się wydawać – mówił Mati Staniszewski.
Lista partnerów, których wymienił, miała pokazać, że ElevenLabs nie ogranicza się do laboratoriów i demonstracji. Mówił o współpracy z Deutsche Telekom, MasterClass czy polskim NFZ. Jednocześnie wyraźnie próbował umiejscowić historię ElevenLabs w polskim kontekście. Wspominał, że wraz ze współzałożycielem dorastali niedaleko miejsca wystąpienia, poznali się jako nastolatkowie i przez lata razem się uczyli, pracowali, rywalizowali i podróżowali.
Polska jako fundament ElevenLabs
– Prawdopodobnie spędziliśmy razem za dużo czasu. Na szczęście czas jest po naszej stronie i nadal jesteśmy najlepszymi przyjaciółmi – żartował Mati Staniszewski.
Mówił o kraju, który przeszedł „niezwykłą transformację”, stał się gospodarką wartą bilion dolarów i domem dla inżynierów budujących jedne z najważniejszych technologii świata.
– Dorastanie w tym środowisku dało nam ambicję i umiejętności, by iść do przodu i budować coś tutaj. Ambicja jest. Technologia postępuje. Jest jeszcze bardzo dużo do zbudowania – powiedział Mati Staniszewski.
Warto wiedzieć
ElevenLabs, czyli największy polski startup
ElevenLabs to jeden z największych sukcesów technologicznych z Polski. Firma wyrosła z niewielkiego startupu, który zebrał w 2023 r. rundę seed na poziomie 2 mln dolarów. Pieniądze przekazało Credo Ventures i grupa polskich aniołów biznesu.
Już w czerwcu 2023 r. firma pozyskała 19 mln dolarów. Jej centralą stał się Londyn. Rundę współprowadzili amerykańscy inwestorzy: Nat Friedman, Daniel Gross i firma Andreessen Horowitz, przy udziale m.in. Credo Ventures, Concept Ventures, SV Angel oraz aniołów takich jak Mike Krieger, Brendan Iribe czy Mustafa Suleyman.
W styczniu 2024 r. ElevenLabs pozyskał kolejne fundusze: 80 mln dolarów od: Andreessen Horowitz, Nata Friedmana i Daniela Grossa, a dołączyli m.in. Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital i Credo Ventures. Rok później kolejna runda wyniosła już 180 mln dolarów. Współprowadzili ją: a16z i ICONIQ Growth, przy udziale m.in. NEA, WiL, Valor, Endeavor Catalyst Fund, Lunate oraz inwestorów strategicznych, takich jak Deutsche Telekom, LG Technology Ventures, HubSpot Ventures, NTT DOCOMO Ventures i RingCentral Ventures. ElevenLabs uzyskał wówczas wycenę 3,3 mld dolarów.
W lutym br. firma zamknęła kolejną rundę przy rekordowej wycenie 11 mld dolarów. Pozyskała wówczas 500 mln dolarów od Sequoia Capital. Fundusze a16z i ICONIQ zwiększyły zaangażowanie. Dołączyli m.in. Lightspeed Venture Partners, Evantic Capital i BOND.
ElevenLabs na bieżąco pozyskuje także mniejszych inwestorów, w tym gwiazdy ekranu. Na początku maja spółka poinformowała, że zainwestowali w nią aktorzy Jamie Foxx i Eva Longoria, a także twórca serialu Squid Game Hwang Dong-hyuk.
Karol Nawrocki o ElevenLabs
ElevenSummit otworzył prezydent Polski Karol Nawrocki. W wystąpieniu odniósł się nie tylko do sukcesów polskiej gospodarki, ale także swoich doświadczeń z ElevenLabs. Przedstawił spółkę jako symbol nowej fazy polskiego rozwoju technologicznego. W jego opinii firma Matiego Staniszewskiego i Piotra Dąbkowskiego jest nie tylko globalnym sukcesem biznesowym, lecz także dowodem, że Polska przestaje być wyłącznie odbiorcą przełomowych rozwiązań.
– Polska dzisiaj jest gotowa nie tylko do tego, aby konsumować nową technologię z całego świata – mówił Karol Nawrocki.
Jak zaznaczył, to dzięki takim firmom jak ElevenLabs kraj „pokazuje, że jesteśmy gotowi do tego, aby nowe technologie tworzyć i uczestniczyć w rewolucji technologicznej”. Prezydent nazwał spółkę wręcz „case study o Rzeczpospolitej Polskiej”: opowieścią o „dynamicznym rozwoju, sile umysłu i sile przedsiębiorczości”, które jego zdaniem dobrze opisują ostatnie 35 lat polskiej transformacji.
Karol Nawrocki przypomniał, że jako prezes IPN był jednym z pierwszych instytucjonalnych użytkowników ElevenLabs, gdy technologia firmy pomogła „odzyskać głos” polskim bohaterom.
– Dziękuję za to łączenie przeszłości z przyszłością – powiedział prezydent.
Jednocześnie próbował wpisać ElevenLabs w szerszą debatę o ryzykach AI. Jak podkreślił, nie obawia się zagrożeń w odniesieniu do ElevenLabs i odpowiedzialnych polskich firm technologicznych, bo „nic nie zwycięży ludzkiej kreatywności”.
Główne wnioski
- ElevenLabs chce wyjść poza rolę firmy kojarzonej głównie z generowaniem syntetycznej mowy. Z wystąpienia Matiego Staniszewskiego wynika, że spółka buduje szerszą warstwę komunikacyjną dla sztucznej inteligencji. Głos ma stać się naturalnym interfejsem w usługach, biznesie, administracji, edukacji, zdrowiu i turystyce. Kluczowe jest nie tylko to, aby AI odpowiadała poprawnie, ale także aby brzmiała wiarygodnie, emocjonalnie i ludzko. Robotyczna komunikacja może ograniczać zaufanie do technologii, nawet jeśli sama inteligencja systemu jest zaawansowana.
- Nowe modele ElevenLabs, w tym zapowiedziany text-to-speech v4 oraz dubbingowy D2, mają pokazać kolejny etap rozwoju generatywnego audio. V4 ma pozwalać na większą kontrolę nad głosem, emocjami, akcentem, szeptem czy śpiewem. D2 ma z kolei rozwiązywać problem płaskiego dubbingu AI przez wykorzystanie oryginalnego audio, a nie tylko transkryptu. Dzięki temu model ma przenosić emocje i wykonanie do innego języka. ElevenLabs rozwija nie pojedyncze narzędzie, lecz platformę obejmującą produkcję treści, lokalizację, agentów głosowych oraz API.
- Mati Staniszewski osadził historię ElevenLabs w polskim kontekście gospodarczym i technologicznym. Firma jest przedstawiona jako przykład polskiego sukcesu w globalnej branży AI, a wystąpienie prezydenta Karola Nawrockiego wzmacnia ten przekaz. ElevenLabs ma symbolizować ambicję kraju, który nie tylko korzysta z nowych technologii, ale także je tworzy. Jednocześnie spółka stara się udowodnić praktyczną wartość swoich rozwiązań przez partnerstwa i przykłady zastosowań, m.in. w turystyce, ochronie zdrowia, telekomunikacji, edukacji i obsłudze klienta.