Rewolucja w notatkach AI. Poznaj możliwości Cohere Transcribe
Firma Cohere, kojarzona dotychczas głównie z rozwiązaniami tekstowymi dla biznesu, oficjalnie wkracza w świat dźwięku. Ich najnowsze dziecko, model Transcribe, obiecuje rekordową precyzję i szybkość, wyprzedzając w testach rozwiązania od Zoom czy ElevenLabs.
Nowy gracz na rynku ASR: Co potrafi Cohere Transcribe?
W czwartek branżę technologiczną obiegła wiadomość o premierze pierwszego modelu głosowego od Cohere. Transcribe to model typu Automatic Speech Recognition (ASR) udostępniony w modelu open source, co stanowi wyraźny ukłon w stronę społeczności deweloperów. Choć rynek transkrypcji wydaje się nasycony, Cohere proponuje coś unikalnego: połączenie lekkości z ogromną mocą obliczeniową.
Model posiada zaledwie 2 miliardy parametrów, co w świecie AI czyni go konstrukcją wyjątkowo kompaktową. Dzięki temu Transcribe nie wymaga farm serwerów – z powodzeniem można go uruchomić na konsumenckich kartach graficznych. Otwiera to drzwi do taniego, lokalnego hostowania danych. To kluczowa wiadomość dla firm dbających o prywatność, które nie chcą przesyłać poufnych nagrań do zewnętrznych chmur.
Wydajność, która zawstydza konkurencję
To nie są tylko puste obietnice marketingowe. Cohere Transcribe wspiął się na szczyt rankingu Hugging Face Open ASR, osiągając średni współczynnik błędów (WER) na poziomie zaledwie 5,42. To wynik lepszy niż w przypadku takich modeli jak Zoom Scribe v1, IBM Granite czy nawet ElevenLabs Scribe v2.

Co więcej, model jest nieprawdopodobnie szybki. Według dokumentacji potrafi on przetworzyć aż 525 minut dźwięku w ciągu zaledwie jednej minuty. Taka przepustowość stawia go w czołówce rozwiązań przeznaczonych do analizy ogromnych zbiorów danych audio, systemów dyktowania czy automatycznego tworzenia notatek ze spotkań. W testach przeprowadzonych z udziałem ludzi Transcribe uzyskał 61% współczynnik wygranych nad konkurencją, pod względem spójności i użyteczności tekstu.
Wsparcie dla języka polskiego i ograniczenia
Dla użytkowników w Polsce najważniejszą wiadomością jest fakt, że nasz rodzimy język znalazł się w elitarnej grupie 14 wspieranych narzeczy (obok m.in. angielskiego, mandaryńskiego czy japońskiego). Warto jednak zachować czujność – mimo ogólnej dominacji w rankingach, model radził sobie nieco słabiej od rywali w przypadku języka portugalskiego, niemieckiego oraz hiszpańskiego. To pokazuje, że przed inżynierami Cohere wciąż stoją wyzwania w zakresie optymalizacji wielojęzycznej.
Strategia biznesowa: API za darmo i droga na giełdę
Cohere nie traktuje Transcribe jako izolowanego eksperymentu. Model zostanie zintegrowany z platformą North – autorskim systemem firmy do orkiestracji agentów AI. Co najciekawsze, dostęp do Transcribe przez API jest obecnie oferowany całkowicie bezpłatnie, a model trafił również do repozytorium Model Vault.
Ruch ten zbiega się w czasie z rewelacyjnymi wynikami finansowymi startupu. Doniesienia mówią o rocznych powtarzalnych przychodach (ARR) na poziomie 240 milionów dolarów w 2025 roku. CEO firmy, Aidan Gomez, sugeruje, że Cohere może wkrótce zadebiutować na giełdzie. Premiera tak udanego, otwartego modelu głosowego to doskonały sposób na budowanie wizerunku technologicznego lidera przed potencjalnym IPO.
Cohere Transcribe to przełom dla tych, którzy szukają darmowego, szybkiego i precyzyjnego narzędzia do zamiany mowy na tekst. Dzięki niskim wymaganiom sprzętowym i świetnym wynikom w testach ASR, model ten ma szansę stać się fundamentem dla nowej generacji aplikacji do notatek, takich jak Granola czy Wispr Flow. Fakt, że wspiera język polski już w dniu premiery, czyni go niezwykle atrakcyjnym narzędziem dla rodzimych deweloperów.
Technogadżet w liczbach