Sprawdź relację:
Dzieje się!
Biznes Technologia

Chińskie AI wstrząsnęło światem. DeepSeek jest darmowy, otwarty i… niebezpieczny. Dla amerykańskich gigantów

Chińska firma DeepSeek zszokowała świat. Stworzyła model generatywnej sztucznej inteligencji, który nie tylko trzyma poziom amerykańskich gigantów, ale jest także znacznie bardziej efektywny i nie trzeba za niego płacić. Problem w tym, że firma ma wiele tajemnic.

DeepSeek chińskie ai
DeepSeek wstrząsnął światem. Dosłownie! Chińskie AI doprowadziło do przeceny akcji amerykańskich gigantów technologicznych. Jest się czego bać, bo… zbyt wiele jeszcze nie wiemy. Fot.: Yuki Iwamura/Bloomberg via Getty Images

Z tego artykułu dowiesz się…

  1. Jak chińska firma DeepSeek zaskoczyła świat technologii, tworząc model AI, który rywalizuje z najlepszymi amerykańskimi rozwiązaniami, jednocześnie redukując koszty treningu o 95 proc.
  2. Dlaczego otwartość kodu źródłowego DeepSeeka może zrewolucjonizować rynek AI, ułatwiając dostęp do zaawansowanych technologii tysiącom mniejszych firm na całym świecie.
  3. Czy sukces DeepSeeka zwiastuje koniec dominacji amerykańskich gigantów technologicznych, takich jak OpenAI i Google, w wyścigu o rozwój sztucznej inteligencji.

W ciągu zaledwie jednej doby kurs wielu amerykańskich firm technologicznych dosłownie się załamał, a z giełdy „wyparowało” ponad 2 bln dolarów. Jak to możliwe? Trzeba poznać historię firmy DeepSeek.

Jeszcze do grudnia 2024 r. niewiele osób na świecie o niej słyszało. To chińska firma założona przez Lianga Wenfenga, twórcę funduszu High-Flyer inwestującego m.in. w AI, zanim to jeszcze stało się modne (od około 10 lat). W 2023 r. biznesmen stwierdził, że Chiny nie mogą przegrać wyścigu o rozwój sztucznej inteligencji ze Stanami i założył DeepSeek. Celem projektu miało być stworzenie modelu, który będzie nie tylko dobry (jakościowo), ale także i tani (do wyszkolenia) – głównie z powodu amerykańskich ograniczeń związanych z eksportem mocnych kart GPU (niezbędnych do szkolenia modeli AI) do Chin.

Pierwszy publiczny wstrząs nastąpił pod koniec grudnia 2024 r., kiedy DeepSeek wypuściło model V3. Okazało się, że w testach benchmarkowych model był tak samo dobry jak najlepsze amerykańskie modele GenAI, takie jak GPT-4o. Jednocześnie był o wiele tańszy do wytrenowania. Branża była jednak wówczas dość sceptycznie nastawiona do historii DeepSeeka.

Do czasu. 20 stycznia wypuszczono nowy model: R1. Po kilku dniach zweryfikowano jego możliwości.

Szok w świecie technologii

Jest arcyciekawie!

– DeepSeek to znaczące wyzwanie dla amerykańskich liderów GenAI, którego powstanie wskazuje, że przełomowe innowacje w AI nie muszą koniecznie opierać się na gigantycznych nakładach, tak obliczeniowych, jak i finansowych, a to, jeśli oczywiście jest prawdą, podważa dotychczasowy model rozwoju przyjęty przez Google czy OpenAI – zauważa Adam Przeździęk, twórca firmy FutureOf [X], ekspert świata technologii.

No właśnie – deklarowane przez DeepSeeka niższe o nawet 95 proc. koszty (ok. 6 mln dolarów kontra kilkaset milionów dolarów w przypadku firm amerykańskich) nie muszą być wiarygodne.

– Wszystko wskazuje na to, że DeepSeek może być skuteczną alternatywą dla założeń np. OpenAI. Okazuje się, że bariera wejścia w AI, jak i koszty z tym związane są dużo mniejsze, co otwiera możliwości budowania własnych modeli dla tysięcy lub dziesiątek tysięcy mniejszych firm. To jest zawsze dobre dla konsumentów, ekonomii i biznesu. W historii ekonomii masowa adopcja technologii musi wiązać się z radykalnie obniżonym kosztem, a tutaj widzimy pierwszy krok w tym kierunku. Na pewno OpenAI, NVIDIa i inny pionierzy AI mają obecnie trudny czas i będą musieli zastanowić się, co dalej. Spodziewam się w tej sytuacji próby ucieczki do przodu w osiągnięcie AGI – komentuje Piotr Smoleń, prezes startupu Symmetrical.ai.

Reakcja będzie konieczna.

– W najbliższym czasie DeepSeek będzie wyzwaniem wizerunkowym oraz wyzwaniem w zakresie oceny wartości biznesów gigantów technologicznych, projektujących flagowe silniki. Nie mam jednak wątpliwości – DeepSeek to dobry model. Ponieważ zarówno Wujek Sam jak i Wujek Xi mają interes w tym, aby to ich model był wiodący na świecie…. będą więc tworzyć rozwiązania konkurujące ze sobą. Zyskamy jako użytkownicy, szczególnie jeśli kolejne wersje DeepSeeka będą otwartymi modelami – zauważa Tomasz Chyrchel, prezes firmy Generator Pomysłów, ekspert świata AI.

DeepSeek i nowy horyzont

Co jest takiego wyjątkowego w DeepSeeku?

Po pierwsze jest darmowy. Teoretycznie tak samo, jak ChatGPT czy Perplexity. Problem polega na tym, że np. „darmowy” model ChataGPT jest o wiele gorszy od DeepSeeka.

Po drugie jest bardzo mocny. W testach weryfikujących, jak dobry jest dany model, osiąga podobne rezultaty co najlepsze modele GenAI na rynku, za które trzeba płacić 200 dolarów miesięcznie (w przypadku OpenAI). Z małą gwiazdką – mowa głównie o testach bazujących na trudnych zadaniach matematycznych, z pisaniem wierszy na wzór Wisławy Szymborskiej radzi sobie już gorzej.

Po trzecie można go dosłownie ściągnąć na własny komputer – i stosować całkowicie swobodnie (to oprogramowanie typu open source). Oczywiście zwykły laptop biurowy jest wciąż za słaby do szybkiej pracy, ale nieco lepszy komputer gamingowy poradzi sobie z generowaniem odpowiedzi całkiem dobrze. Jeśli zaś tak się składa, że jesteś prezesem większej firmy i stać cię na zakup wyspecjalizowanej jednostki, możliwości są ogromne!

Po czwarte – jak deklaruje DeepSeek, wytrenowanie modelu kosztowało jakieś…. 5 proc. tego, co nowych modeli ChatGPT. To nie błąd, podobna jakość za jedną dwudziestą kosztów.

Sumarycznie, Chińczycy właśnie pokazali, że da się zrobić coś tak samo dobrze, jak gwiazdy świata AI, bez najlepszego sprzętu i olbrzymich pieniędzy na wytrenowanie.

Zdaniem eksperta

DeepSeek otwiera drzwi dla nowych modeli biznesowych

Dla zwykłego Kowalskiego, który musi przeanalizować swoją umowę z telekomem czy napisać „kreatywne” życzenia dla cioci, sukces modelu DeepSeeka i jego open source’owy charakter nie zmienia nic. Dla firm, które będą mogły budować swoje rozwiązania w oparciu o dobrze zrozumiały, dostępny i samodzielnie zarządzany system klasy LLM może to zmieniać wszystko. Podobnie jak Linux i serwer Apache, a potem WordPress zdominowały rynek i zdemokratyzowały możliwość tworzenia własnych aplikacji internetowych w końcu lat 90. i na początku 2000, tak open source’owe LLMy mogą sprowadzić tę technologię do pozycji ogólnodostępnej infrastruktury, minimalizując ekonomiczne bariery dla innowacji i konkurencji. Warto też pamiętać, że rozwiązania open source są co do zasady bezpieczniejsze i bardziej godne zaufania od tych z zamkniętym kodem: patrzy na nie więcej kompetentnych oczu, które nie mają deadlineów i ciśnięcia na wynik, a w to miejsce szczere naukowe i technologiczne zaangażowanie. To daje szansę, że fakt pochodzenia tego rozwiązania nie będzie miał znaczenia.

Sukces DeepSeeka a przyszłość AI

Jak im się to udało? Uwaga, musimy nieco uprościć skomplikowany świat technologii AI. DeepSeek nie został wytrenowany na gigantycznych bazach danych, tak, jak modele amerykańskie (przypomnijmy, już dziś eksperci alarmują, że ograniczeniem dla rozwoju GenAI jest fakt, że modele zebrały już wszystkie dostępne w świecie cyfrowym dane wyprodukowane w historii ludzkości). Bazy wciąż są imponujące, ale wykorzystano je w sprytny sposób. Użyto do tego wzmocnionego uczenia maszynowego. DeepSeek „nauczył się” poprawnego generowania treści dzięki prostym zasadom nagradzania poprawnych odpowiedzi. W efekcie punktowane były te odpowiedzi, które były dokładne i odpowiednio sformatowane. Przyjęty mechanizm wystarczył do tego, by stworzyć produkt, który wcale nie jest gorszy, niż znacznie bardziej „napakowane” modele amerykańskie. Podejście proste i jak się wydaje, skuteczne.

Tylko czy nie jest to zbyt piękne, by było prawdziwe? Eksperci są powściągliwi.

– Dzisiaj istotna jest deklaratywna efektywność tego modelu. Myślę, że szybko dostaniemy dodatkowe badania w związku z open source’owym charakterem tego modelu. Czy zmieni kierunek rozwoju? Zwracam uwagę, że i Google, i OpenAI oferują bardzo dobrze działające małe modele AI. Także mamy już sprawdzony open sourcowy bardzo dobry model Meta LLama. Nie sądzę, by wpłynęło to na kierunek rozwoju – raczej inwestorzy będą się bardziej przyglądać wydatkom wiodących big techów. Zwracam też uwagę, że model chiński jest uczony na niezdefiniowanych zestawach danych i wcześniej czy później ktoś może oskarżyć tę firmę o wykorzystanie nielegalnych danych – komentuje Grzegorz Zajączkowski, ekspert Ministerstwa Cyfryzacji oraz TVP, lider cyfryzacji KE na Polskę.

No właśnie, czy można wierzyć w zapewnienia o ultraefektywności modelu?

– Do konkretnych kwot, czyli niższych kosztów, podchodzę z rezerwą. Pamiętajmy, że w kontekście flagowych modeli, to jak tanio możesz “wyprodukować” model, to przede wszystkim gra wizerunkowa firm, a nawet państw. Ekipa stojąca za Bielik.AI pokazała, że da się wytrenować model bez wielkiego budżetu. DeepSeek pokazuje, że są inne metody tworzenia potencjalnie flagowego modelu, niż przepalanie dolarów. Mniejsi i ambitni gracze są nadal w grze – mówi Tomasz Chyrchel.

I co niektórym mogą zaświecić się oczka. Bo model DeepSeeka jest… dość demokratyczny! Zwłaszcza jeśli jako przedsiębiorca myślisz o rozwoju AI, ale masz obawy np. co udostępnienia danych.

– DeepSeek pokazuje, że konkurencja na rynku Ai stała się globalna. Chińska firma sprytnie komunikuje, że model jest open-source. Mimo że jest możliwość postawienia modelu na własnych serwerach, typowy użytkownik będzie korzystał z wersji przeglądarkowej, mobilnej lub API co oznacza przekazywanie danych chińskim korporacjom a w praktyce chińskiemu rządowi. DeepSeek kusi parametrami modelu zbliżonymi do o1. Przedsiębiorstwa, którym będzie zależało na wdrożeniu modelu na własnej infrastrukturze, mogą rozważyć chiński model. Mimo, że koszty rozwiązania są zachęcające, to uważam, że biznes pozostanie po stronie zachodnich, sprawdzonych rozwiązań chmurowych a giganci (OpenAI, Google) pójdą w stronę optymalizacji cen swoich produktów – mówi Maciej Guz, twórca InnovAitors.

Zdaniem eksperta

Było zbyt gorąco

Gorączka AI rozpaliła rynek do czerwoności. Inwestorzy nerwowo patrzą na zwroty z inwestycji, a napływ kapitału w sektor AI przebija wszelkie rekordy. Wyceny firm technologicznych wystrzeliły w kosmos. Nic dziwnego, że informacja o nowym graczu, który podobno oferuje podobną jakość za ułamek ceny, wywołała trzęsienie ziemi na giełdach. nVidia, Meta, Microsoft, Google – wszyscy zaliczyli korektę (zobaczymy czy będzie trwać lub będzie trwała). Tylko czy za medialnym hypem faktycznie stoi realny konkurent dla gigantów? Deepseek chwali się wynikami przewyższającymi Anthropic 3.5 Sonnet czy OpenAI GPT-o1/4o, ale diabeł tkwi w szczegółach. Pierwsze niezależne testy pokazują, że to nie takie proste. W standardowych benchmarkach wypada nieźle, ale gdy zaczniemy kombinować z parametrami testów, różnica jakości staje się widoczna. Z drugiej strony, ciekawie wygląda ich podejście do optymalizacji pamięci Key/Value – zdaje się, że udowodnili lepsze wykorzystanie zasobów sprzętowych. To by tłumaczyło spadki nVidii (producent hardware) – możliwe, że Deepseek pokazał, jak osiągnąć podobne rezultaty istotnie mniejszym kosztem. Sam kontekst powstania modelu budzi sporo pytań. Ciężko uwierzyć w narrację o „projekcie pobocznym”. Chiński aspekt sprawy jest wielowymiarowy – to nie tylko kwestia rywalizacji ze Stanami, ale też zupełnie innego podejścia do prywatności danych. Open source nie oznacza pełnej transparentności – używamy przecież „pretrenowanego” modelu. Świetnie radzi sobie z kodem, ale czy możemy mieć pewność, że nie przemyca niebezpiecznych bibliotek? Ostatnie miesiące pokazały wiele prób infekowania popularnego oprogramowania. Na twarde odpowiedzi przyjdzie jeszcze poczekać. Polakom pozostaje obserwować rozwój sytuacji i liczyć, że większa konkurencja demokratyzuje dostęp do najnowszych technologii. Mam też cichą nadzieję, że rozwój open source-owych modeli da szansę naszym rodzimym badaczom i firmom na dołączenie do wyścigu – nawet jeśli mielibyśmy startować z drugiego szeregu.

Chińska perspektywa

Przechodzimy do sedna problemu. Gdyby model powstał w Dolinie Krzemowej, Teksasie albo Paryżu, wszyscy zachwycalibyśmy się kolejnym konkurentem dla gigantów technologicznych. Prawdopodobnie w tym momencie osoba pokroju Jeffa Bezosa wyciągałaby ze skarpetki dwucyfrową (oczywiście, z dopiskiem – miliardów) liczbę dolarów, by „pomóc” w rozwoju firmy. DeepSeek powstał jednak w sercu Chin. Stoi za nim grupa około 150 inżynierów. I… niewiele więcej o nim wiadomo oprócz deklaracji twórców.

– I nie, nie są pewne. Doskonale znamy zjawisko budowania modeli pod systemy benchmarkingowe. Na to pytanie odpowiemy za parę dni – i jest to niewątpliwie główne pytanie zadawane przez wszystkich badaczy. Chciałbym zwrócić uwagę na ciekawą rzecz – publikacja wyników tego modelu odbyła się dokładnie kilka dni po ogłoszeniu dużego projektu inwestycyjnego w USA – „Stargate”. Na ten moment wydaje się, że to jest odpowiedź czysto polityczna, która ma wywołać określone emocje w różnych środowiskach politycznych – zauważa Grzegorz Zajączkowski.

Nie wiadomo, czy rzeczywiście wytrenowanie modelu było tak tanie. Nie wiadomo, jakich zasobów użyto (przypominam, Chiny są odcięte od najlepszych kart służących do trenowania AI – przynajmniej z oficjalnych kanałów dystrybucyjnych). Nie wiadomo, w jaki sposób wykorzystuje się dane umieszczane dziś ochoczo przez ludzi w przeglądarkowej wersji modelu LLM. To ostatnie dotyczy zresztą też ChataGPT, ale dotykamy w tym momencie geopolitycznej rozgrywki Chiny kontra USA. Polska, do tej pory, stoi bardziej po stronie „pasków i gwiazdek”, niż gwiazdki, ale jednej i z mocnym czerwonym tłem.

Zdaniem eksperta

Giganci muszą reagować

Sporo osób zwraca uwagę na deklarowane niższe koszty treningu i słusznie – ale w mojej opinii to, co ma tu największe znaczenie to nieco niestandardowe podejście twórców wymuszone przez amerykańskie restrykcje eksportowe dotyczące konkretnych chipów.
W związku z problemami z dostępem do najnowszych układów DeepSeek zmaksymalizował wykorzystanie swoich zasobów – głównie przez usprawnienia w architekturze samego modelu oraz optymalizację procesu uczenia się wersji R1. To, co cieszy najbardziej to fakt, że firma postawiła na strategię open source, udostępniając kilka wersji swojego modelu społecznościom badawczy i programistów. Tego samego nie można powiedzieć o rozwiązaniach od OpenAI czy Anthropic. Podejście typu “bierzcie wszyscy” może być w tym wypadku niesamowicie skuteczne – i te efekty widać chociażby w niektórych benchmarkach takich jak AIME 2024 czy MATH-500, w których DeepSeek dorównuje flagowym modelom od OpenAI. Nie oceniałbym tej sytuacji tylko jako wyzwanie – choć oczywiście nim jest – ale jako dowód na to, że ograniczenia technologiczne mogą paradoksalnie prowadzić do powstania bardziej efektywnych modeli językowych. DeepSeek faktycznie mógł osiągnąć pewne oszczędności dzięki optymalizacji technicznej, ale jak zawsze – pełen obraz sytuacji jest nieco bardziej złożony. DeepSeek wywodzi się z funduszu hedgingowego High-Flyer, który wcześniej zainwestował znaczne środki w infrastrukturę obliczeniową. To sugeruje, że rzeczywiste koszty rozwoju mogły być wyższe niż te, które są oficjalnie podawane. Z jakim poziomem niedoszacowania możemy się mierzyć? Na to pytanie nie jestem już w stanie jednoznacznie odpowiedzieć. Według dziennikarzy „The Information” koszt samego modelu mógł być nawet do 30 razy tańszy niż w przypadku rozwiązań proponowanych przez Meta. Tego typu liczby robią wrażenie.

Mgła wojny w AI

– No właśnie. Tak naprawdę wiemy… nic. W przypadku wersji webowej możemy liczyć tylko na deklaracje firmy oferującej tę wersję. Ja ostrzegałbym przed wykorzystywaniem webowej wersji tego chatbota. Z drugiej strony ściągnięcie instancji do własnego użytku – po pierwsze, wcale nie jest takie proste, wymaga odpowiednio wydajnego sprzętu i wymaga pewnej wiedzy devopsowej, co spowoduje, że raczej „normalny” użytkownik wybierze wersję web. Zresztą do użytku offline całkowicie wystarczy model Meta LLaMA – ja na przykład wbudowałem go w swój dom, gdzie na bieżąco raportuje podłączone wskaźniki wilgotności, ruchu na kamerach itp. wokół domu. Zmiana na model chiński dokładnie nic by mi nie dała (poza nieco mniejszym zużyciem procesora) – komentuje ekspert Ministerstwa Cyfryzacji.

Z drugiej strony Piotr Smoleń zwraca uwagę na dość nietypowy, otwarty model DeepSeeka.

– Nie możemy w 100 proc. wierzyć zapewnieniom twórców firmy, natomiast podejście open source i otwarte publikacje research paperów przez zespół DeepSeeka może wskazywać na to, że te gwarancje mogą być prawdziwe. Wszystko wskazuje na to, że metoda R1 Zero trenowania modeli działa, jest nową innowacją rynkową i obniży radykalnie koszty tworzenia modeli w przyszłości – tłumaczy.

Jest jeszcze jeden szkopuł. W przypadku DeepSeeka nie dowiemy się wielu rzeczy związanych z niechlubną częścią historii Chin. Na przykład tego, co stało się na placu Tiananmen w 1989 r.

– Chińskie pochodzenie DeepSeeka rodzi jednocześnie poważne obawy związane z prywatnością i kontrolą – model R1 podlega nadzorowi chińskiego regulatora internetu i, jak wykazały testy, aktywnie cenzuruje pewne tematy, zgodnie z socjalistyczną agendą i wartościami. To możliwe potwierdzenie głębokiej integracji tej technologii z chińskim systemem kontroli informacji, sugerujące, że użytkownicy powinni zachować szczególną ostrożność i mieć ograniczone zaufanie do efektów wykorzystywania tej technologii, mimo jej imponujących możliwości – zauważa Adam Przeździęk.

W efekcie płacimy nie pieniędzmi (za dostęp do narzędzi), ale danymi.

– Jednak dla zaawansowanych użytkowników znaczenie ma fakt, że DeepSeek to model otwarty. Pozwala na korzystanie z własnej infrastruktury i zachowanie wyższego poziomu bezpieczeństwa i ochrony danych niż modele komercyjne. To sprawia, że ten model ma potencjał być game changerem – mówi Tomasz Chyrchel.

Giełda zareagowała. To „czarny łabędź”?

Przerażeni są jednak inwestorzy. Ceny spółki NVIDIA, czyli największego na świecie producentów kart GPU, spadły 27 stycznia o około 15 proc. Microsoft stracił ponad 4 proc. Alphabet (czyli Google) nieco ponad 3 proc. – podobnie jak cały indeks NASDAQ skupiający głównie spółki technologiczne.

Dlaczego? Potencjalny sukces chińskiej firmy oznacza nie tylko powstanie gigantycznej konkurencji, ale wręcz zmianę modelu rozwoju generatywnej AI ze strony obecnych liderów. Nie wiadomo też, czy DeepSeek nie ma kolejnych asów w rękawie.

Sukces idei stojącej za chińskim projektem może też oznaczać spadek popytu na karty GPU – czyli główny produkt NVIDII. Nie sposób nie wspomnieć też o kontekście politycznym. W środę 22 stycznia, w Białym Domu szefowie Softbanku, OpenAI i Oracle ogłosili plan inwestycji do 500 mld dolarów w architekturę AI (tzw. projekt Stargate), która miałaby doprowadzić do powstania sztucznej superinteligencji i m.in. spersonalizowanych szczepionek na raka. Dokument podpisał – a jakże – Donald Trump. Zgodnie z przekazem z Waszyngtonu, to USA mają odpowiadać za globalną dominację w świecie sztucznej inteligencji.

Pojawienie się DeepSeeka może temu zagrozić – zwłaszcza że model funkcjonuje w oparciu o open source. Dziś każda firma na świecie może go ściągnąć i wykorzystać do dowolnego celu, na podstawie jej danych i pomysłów.

– Podejście open source obniża ryzyko korzystania. Każdy może zainstalować sobie oprogramowanie DeepSeeka na swoich komputerach i danych, bez konieczności dzielenia się tymi danymi z twórcą modelu (jak np. w OpenAI). Spodziewam się lokalnych, narodowych wersji DeepSeeka. Nie możemy oczywiście w pełni wykluczyć ryzyka cyberbezpieczeństwa związanych z korzystaniem z tej technologii, ale spodziewam się, że ten temat będzie przez ekspertów podjęty niebawem – zauważa Piotr Smoleń z Symmetrical.ai.

Konsekwencji chińskiego pomysłu na AI może być o wiele więcej – najbliższe miesiące będą ultraciekawe!

Sprawdzamy kulisy DeepSeeka. Czy jest się czego bać?

Mini wywiad

Ekspert o technicznych aspektach modelu DeepSeeka

DeepSeek może stanowić realne zagrożenie dla amerykańskich firm AI?

Jan Molski, badacz AI: Można powiedzieć, że “rynek” ocenił, że DeepSeek może być zagrożeniem. Niektórzy twierdzą, że niedawne spadki akcji firm technologicznych, takich jak Nvidia, Microsoft czy Alphabet krótko po ogłoszeniu projektu obawiały się rosnącej konkurencji ze strony chińskich technologii AI. Ocena jakości dużych modeli językowych jest dość trudna. Testów ewaluacyjnych jest bardzo wiele i wszystko zależy od konkretnych zastosowań. Dobrym źródłem informacji o jakości modeli są rankingi CRFM (Center of Research on Foundation Models) – Centrum badawczego na Uniwersytecie Stanfordzkim zajmującego się badaniem dużych modeli językowych.

Czym różni się DeepSeek od innych modeli LLM?

DeepSeek v3 wyróżnia się wśród innych modeli na liście HELM (Holistic Evaluation of Language Models) swoją równowagą między precyzją a wydajnością w szerokim zakresie scenariuszy. Pod względem średniego wskaźnika zwycięstw (mean win rate) osiąga imponujące 0.908, przewyższając popularne modele takie jak Gemini 1.5 Pro (0.842) czy Claude 3.5 Sonnet (0.846). DeepSeek plasuje się szczególnie wysoko w zadaniach takich jak MedQA (0.809), LegalBench (0.94), oraz NarrativeQA (0.796), co potwierdza jego zdolność do obsługi złożonych zadań wymagających głębokiego rozumienia kontekstu. W obszarze matematyki i kodowania (MATH i GSM8K) model ten również prezentuje solidne wyniki, będąc w czołówce obok modeli takich jak GPT-4o. Choć w tłumaczeniu (WMT 2014 -BLEU-4) jest lekko za konkurencją, to jego ogólna wydajność czyni go liderem w kontekście zastosowań profesjonalnych i specjalistycznych.

Jak DeepSeek radzi sobie w kontekście innych modeli open-source?

W świecie modeli open-source DeepSeek v3 wypada świetnie i jest na czele stawki pod względem średniego wskaźnika zwycięstw (mean win rate), będąc kilka miejsc przed Llama 3.1 Instruct Turbo (405B) LLaMA. W praktycznym użyciu bardzo popularnym modelem jest Llama 3.1 (70B), jednak to na ile DeepSeek będzie zagrożeniem, okaże się w kolejnych tygodniach. Z pewnością DeepSeek wypada dobrze w zadaniach związanych z prawem (LegalBench), medycyną (MedQA) i złożonym rozumowaniem. Pozostają jednak wątpliwości związane z “kulturowym usposobieniem”. Chodzi o przypadki, w których model nie chce podać informacji w danym temacie (np. masakra na Placu Tiananmen) albo poda informacje błędne. Jego zdolność do konkurencji z modelami zamkniętymi, takimi jak GPT-4o w tak wymagających obszarach, czyni go istotnym wyborem dla badaczy i deweloperów preferujących otwartość i transparentność. DeepSeek potwierdza, że modele open-source mogą być równie skuteczne, co zamknięte systemy, oferując przy tym etyczną alternatywę dla sektora komercyjnego.

Czy można wierzyć twórcom DeepSeeka w deklaracje, jak trenowali swój model?

To kwestia dyskusyjna. W amerykańskich mediach pojawiły się doniesienia, że koszt treningu DeepSeeka wyniósł około 6 mln dolarów, co stanowi mały ułamek ponad 100 mln dolarów potrzebnych do wytrenowania GPT-4. Trudno zweryfikować rzetelność tych informacji, co budzi pytania o transparentność danych finansowych projektu. DeepSeek zostało stworzone przez Liang Wenfenga oraz chiński fundusz hedgingowy, który wykorzystuje zaawansowaną analizę danych do przewidywania opłacalnych inwestycji. Aby to osiągnąć, fundusz dysponuje ogromnymi zasobami mocy obliczeniowej. W momentach, gdy zapotrzebowanie na tę moc spada, zaczęto ją wykorzystywać w innych celach, takich jak kopanie kryptowalut – przynajmniej według niektórych doniesień. Niektórzy żartują, że DeepSeek jest swoistym „projektem pobocznym”, który zapobiega marnowaniu zasobów.
Warto dodać, że fundusz posiada znaczną liczbę procesorów graficznych o niższej specyfikacji w porównaniu z topowymi rozwiązaniami, jak Nvidia H100. Mimo to skala ich infrastruktury – oparta na dużej liczbie mniej wydajnych chipów – okazuje się wystarczająca do trenowania dużych modeli językowych.

A co z perspektywy użytkownika zmienia fakt, że DeepSeek powstał w Chinach?

To zależy. DeepSeek jest modelem OpenSource, więc wagi modelu są dostępne do ściągnięcia na GitHub DeepSeek – GitHub. Gdy model jest uruchamiany lokalnie, wszystkie dane pozostają w obrębie infrastruktury użytkownika. Dzięki temu nie ma ryzyka przesyłania danych do Chin ani narażania prywatności użytkowników. To ogromna zaleta open-source.

Korzystając z platformy online czy aplikacji mobilnej dostarczanych w formie usług chmurowych zarządzanych przez chińską firmę, warto zwrócić szczególną uwagę na warunki polityki prywatności. Chiny mają restrykcyjne prawo dotyczące dostępu do danych (np. prawo bezpieczeństwa narodowego), co potencjalnie może budzić obawy związane z prywatnością.

Na przykład?

Gromadzone dane osobowe użytkownika mogą być przechowywane na serwerze znajdującym się poza krajem zamieszkania użytkownika. Informacje są przechowywane „na bezpiecznych serwerach zlokalizowanych w Chińskiej Republice Ludowej”. Lektura polityki prywatności pokazuje także inne punkty. DeepSeek gromadzi dane tekstowe lub głosowe, podpowiedzi, przesłane pliki, informacje zwrotne, historię czatów lub inne treści, które użytkownik dostarcza do modelu. Dotyczy to również takich dokumentów jak dowodu tożsamości, wieku czy zapytań. Firma zbiera dane o aktywności w internecie, np. adres IP, unikalne identyfikatory urządzeń i pliki cookie.

Inne punkty też są ciekawe. DeepSeek „zbiera pewne informacje o urządzeniu i połączeniu sieciowym, gdy użytkownik uzyskuje dostęp do usługi. Informacje te obejmują model urządzenia, system operacyjny, wzorce lub rytmy naciśnięć klawiszy, adres IP i język systemu. Gromadzimy również informacje związane z usługami, diagnostyką i wydajnością, w tym raporty o awariach i dzienniki wydajności”.

Teoretycznie, w zależności od miejsca zamieszkania, użytkownikowi mogą przysługiwać określone prawa w odniesieniu do jego danych osobowych, takie jak prawo do informacji o sposobie gromadzenia i wykorzystywania przez nas jego danych osobowych. Użytkownik może mieć również prawo dostępu do swoich danych osobowych, ich zmiany, sprzeciwu wobec nich, żądania kopii swoich uprawnień, składania skarg do właściwych organów, wycofania swojej zgody lub ograniczenia gromadzenia i wykorzystywania jego danych osobowych, a także żądania ich usunięcia i potencjalnie innych

Główne wnioski

  1. DeepSeek wywraca rynek AI, wprowadzając tańszą alternatywę. Chińska firma DeepSeek, dzięki swojemu modelowi R1, zaprezentowała rozwiązanie osiągające podobną jakość jak najlepsze modele amerykańskie, ale przy znacznie niższych kosztach – nawet o 95 proc. niższych. To podważa dotychczasowy model rozwoju AI oparty na ogromnych nakładach finansowych i technologicznych, co może zrewolucjonizować rynek oraz otworzyć drzwi dla mniejszych firm.
  2. Model open source jako katalizator innowacji. DeepSeek postawił na otwarty kod, co demokratyzuje dostęp do zaawansowanej technologii AI. Dzięki temu rozwiązaniu firmy i programiści mogą tworzyć własne modele i aplikacje na bazie R1, podobnie jak Linux czy WordPress w przeszłości. Podejście to minimalizuje bariery ekonomiczne dla innowacji, choć budzi obawy o bezpieczeństwo danych oraz transparentność procesu trenowania.
  3. Geopolityczne i technologiczne wyzwania dla liderów z Doliny Krzemowej. Wprowadzenie modelu R1 wzmacnia konkurencję między Chinami a USA w sektorze AI, szczególnie w kontekście amerykańskich restrykcji na eksport zaawansowanych technologii. Giganci technologiczni, tacy jak OpenAI czy Google, muszą teraz zmierzyć się z presją na obniżenie kosztów i poprawę efektywności swoich modeli, jednocześnie dbając o zaufanie użytkowników i transparentność.