DeepSeek, chińska firma badawcza zajmująca się sztuczną inteligencją, niedawno zaprezentowała swój nowy model AI, DeepSeek-R1, który ma rywalizować z modelem o1 firmy OpenAI, czyli specyficzną wersją ChatGPT zaprojektowaną do zaawansowanego rozumowania. Ten model AI, zwany „reasoning” (rozumującym), został zaprojektowany tak, aby samodzielnie sprawdzać fakty, poświęcając więcej czasu na rozważenie pytania lub zapytania, co pomaga unikać typowych pułapek. DeepSeek-R1 osiąga wyniki porównywalne z modelem OpenAI na benchmarkach takich jak AIME i MATH, co pokazuje jego konkurencyjność na rynku AI.
DeepSeek-R1 nie jest pozbawiony wyzwań
Jednak DeepSeek-R1 nie jest pozbawiony wyzwań. Na przykład, jak zaważają redaktorzy TechCrunch, ma trudności z niektórymi problemami logicznymi, takimi jak gra w kółko i krzyżyk, i może być łatwo złamany, co pozwala użytkownikom obejść jego zabezpieczenia. Dodatkowo, model wydaje się blokować zapytania politycznie wrażliwe, prawdopodobnie z powodu regulacji w Chinach. To zachowanie wynika z surowych przepisów chińskiego rządu dotyczących projektów AI, które wymagają, aby modele ucieleśniały podstawowe wartości socjalistyczne.
Premiera DeepSeek-R1 następuje w momencie, gdy kwestionowana jest zasadność „praw skali” w AI. Te prawa sugerują, że zwiększenie ilości danych i mocy obliczeniowej będzie ciągle poprawiać możliwości modelu, ale raporty wskazują, że modele z głównych laboratoriów AI, w tym OpenAI, Google i Anthropic, nie poprawiają się już tak dramatycznie jak wcześniej. To skłania do poszukiwania nowych podejść, architektur i technik rozwoju AI, takich jak test-time compute, które są podstawą modeli takich jak o1 i DeepSeek-R1.
Test-time compute, znane również jako inference compute, pozwala modelom poświęcać dodatkowy czas przetwarzania na zadania, co zwiększa ich zdolności rozumowania. CEO Microsoftu, Satya Nadella, niedawno podkreślił pojawienie się tego nowego prawa skali podczas keynote na konferencji Microsoft Ignite.
DeepSeek planuje udostępnić kod źródłowy DeepSeek-R1 oraz udostępnić API
DeepSeek planuje udostępnić kod źródłowy (czyli być projektem Open Source) DeepSeek-R1 oraz udostępnić API, co uczyni go dostępnym dla szerszej publiczności. Firma jest wspierana przez High-Flyer Capital Management, chiński fundusz hedgingowy, który wykorzystuje AI do podejmowania decyzji handlowych. High-Flyer buduje własne klastry serwerów do treningu modeli, a najnowszy klaster ma podobno 10 000 GPU Nvidia A100 i kosztuje około 138 milionów dolarów.
Poprzedni model DeepSeek, DeepSeek-V2, zmusił konkurentów takich jak ByteDance, Baidu i Alibaba do obniżenia cen za korzystanie z niektórych modeli i udostępnienia innych za darmo. Ta presja konkurencyjna podkreśla wpływ innowacji DeepSeek na przemysł AI.
Podsumowując, DeepSeek-R1 reprezentuje znaczący postęp w technologii AI, z jego zdolnościami rozumowania i konkurencyjnymi wynikami. Jednakże, model ten staje przed wyzwaniami związanymi z problemami logicznymi i ograniczeniami regulacyjnymi. W miarę jak krajobraz AI nadal się rozwija, modele takie jak DeepSeek-R1 będą odgrywać kluczową rolę w kształtowaniu przyszłości sztucznej inteligencji.
DeepSeek-R1 potrafi również rozumieć i odpowiadać w języku polskim
DeepSeek-R1 potrafi również rozumieć i odpowiadać w języku polskim, co czyni go jeszcze bardziej wszechstronnym narzędziem. Co więcej, proces myślenia DeepSeek-R1 jest zapisywany inną czcionką przed właściwą odpowiedzią, co pozwala użytkownikom śledzić, jak model dochodzi do swoich wniosków. Ten proces myślenia jest niezwykle ciekawy i daje wgląd w działanie modelu.
ChatGPT vs DeepSeek jako konkurencja tylko dla ostatniej wersji ChatGPT o1-preview i o1-mini
ChatGPT to zaawansowany model językowy opracowany przez OpenAI, dostępny w różnych wersjach, takich jak GPT-3.5, GPT-4, GPT-4o oraz modele o1 (o1-preview i o1-mini). Każda z tych wersji ma swoje specyficzne zastosowania:
- GPT-3.5: Podstawowa wersja dostępna dla użytkowników darmowych, używana do ogólnych zadań konwersacyjnych.
- GPT-4: Zaawansowana wersja dostępna dla użytkowników płatnych, oferująca lepsze zrozumienie i generowanie tekstu.
- GPT-4o: Wersja z dodatkowymi funkcjami, takimi jak pamięć, niestandardowe instrukcje, analiza danych, przesyłanie plików, przeglądanie sieci i wizja.
- o1-preview i o1-mini: Modele zaprojektowane do zaawansowanego rozumowania i rozwiązywania problemów, szczególnie przydatne w zadaniach wymagających dodatkowego przetwarzania, takich jak strategia, edukacja, ćwiczenia z kodowania i zaawansowana matematyka.
Źródłó: TechCrunch, DeepSeek, opracowanie własne. Zdjęcie otwierające: pexels.com.