Dotekomanie.cz

Češi vyvinuli AI přepisovač zvukové stopy na text. Funguje lokálně i přes cloud, 7 hodin zvládne přepsat za 40 minut

obrázek 2024 05 05 201643373 3649x1593x

Současné přepisy audiostopy na text fungují na principu cloudových služeb. To znamená, že pro konverzi mluveného slova na textovou podobu je potřeba poslat původní audio nebo video soubor do cloudu. Zde se pak využívá úložiště a výpočetní výkon třetích stran. Za tuto službu zadavatel obvykle platí na základě délky zdrojového audiovizuálního materiálu. Existují však také instituce, které mají buď extrémně citlivá data, nebo potřebují často převádět velké objemy mluveného slova do textu. Mezi tyto instituce mohou patřit soudy, státní a městské úřady, nemocnice, call centra nebo mediální domy jako televizní a rozhlasové stanice.

„Při vývoji Venlan AI Transriber PIXLA jsme se zaměřili na specifickou cílovou skupinu uživatelů a jim jsme přizpůsobili nejen celkové řešení, jehož součástí je i hardwarová „piksla“, ale i proces učení transkripce, které časově zabralo největší část vývoje,“ popisuje svůj AI produkt Vladislav Janeček, jednatel společnosti Venlan.

Ventlan

Fyzické zařízení i cloudové řešení

PIXLA zvládne přepsat text z audiovizuálních souborů s mluveným slovem ve více než 30 jazycích, včetně všech jazyků EU. Využívá pokročilé AI nástroje, které rozpoznávají nejen slova a hlásky, ale také kontext, což vede k přirozeně znějícímu textu, který je velmi podobný originálu a minimalizuje chyby, jako jsou přeřeknutí nebo odkašlání.

Venlan AI Transriber PIXLA je on-premise řešení založené na hardwarovém zařízení pro interní zabezpečené sítě. Jeho ovládání je jednoduché, stačí přetáhnout zvukový soubor do aplikace, která ho zkopíruje do zabezpečeného úložiště PIXLY, převede zvuk na text a poté soubor smaže. Uživatelé získají čistý text a .srt soubor s titulky, přičemž nejasné části textu jsou zvýrazněny. Případně je možné využít cloudové služby. Přepis sedmihodinového záznamu skrze PIXLA trvá pouze 40 minut.

Aplikace je dostupná pro Windows, macOS a Linux a lze ji integrovat do firemního systému nebo spisové služby pomocí restAPI. Výsledky jsou okamžitě k dispozici a testování ukázalo, že převod sedmihodinového záznamu s několika účastníky trvá méně než hodinu. Nově PIXLA umožňuje převod hlasu na text v reálném čase, což může být využito pro diktování lékařských zpráv nebo titulkování na konferencích. Dostupná bude i v Obchodě Play.

Zdroj: tisková zpráva

Exit mobile version