Petře, Centrum Paraple zdarma využívá vašich služeb už nějakou dobu – ať už jde o každodenní monitoring médií, nebo přepisy nahrávek. A právě u těch jsem si uvědomil jednu věc: při rozhovorech se musím trochu brzdit, protože dvě minuty záznamu rovná se zhruba stránka textu.
Je to tak, přibližně dvě a půl minuty záznamu znamenají jednu stránku textu. My denně přepisujeme mnoho desítek hodin audia a videa. A nejen přepisujeme, ale i dále efektivně zpracováváme.
Existují různé typy přepisů. Někdy je třeba doslovný přepis, třeba pro monitoring médií, kde se z textu dál citují výroky, nebo pro soudy, kde se přepisují výpovědi svědků či znalců. Jindy naopak dává větší smysl text upravit, aby byl lépe čitelný a srozumitelný.
Věnujeme se teď i tomu, jak přepisy dál posunout pomocí jazykových modelů – například je automaticky upravit, přeložit nebo z nich vytvořit shrnutí. Protože i když je mluvené slovo přesně přepsané, pořád zůstává „mluvené“, a to je jiný typ textu, než běžně čteme.
Náš záměr je mít univerzální nástroj pro veškeré použití, ať už z hlasu, nebo z textu, anebo ten text převést do hlasu v cizím jazyce. Prostě nástroj na zpracování audia, videa, na sociální sítě, na rozhovory, na archivaci.
Vašimi klienty jsou mimo jiné i všechny soudy v Česku a poslanecká sněmovna?
Ano, aktuálně spolupracujeme s poslaneckou sněmovnou a jednáme i se senátem. U sněmovny to byl zajímavý, ale technicky náročný projekt. Mají připravený program schůze, část běží on-line, do toho probíhá hlasování… My jsme se do jejich systému integrovali a zajišťujeme přepis, editaci, autorizaci i publikaci výstupů.
Představíte nám váš nástroj Beey AI Editor?
Nejlépe to vysvětlím na konkrétním příkladu. Nedávno jsem byl na schůzce v jedné televizi. Obecně děláme titulky pro neslyšící pro všechny velké stanice, ale tady šlo o něco jiného – chtěli nástroj, který by jim pomohl z natočených reportáží dělat zprávy pro web. To znamená převádět je do psané formy.
Už zkoušeli různé bezplatné nástroje a k placenému byli trochu skeptičtí. Ale když viděli, co všechno ten náš systém umí, že na jedno kliknutí vytvoří titulky, není třeba video nikam nahrávat, zdlouhavě stahovat nebo exportovat – zkrátka že celé workflow může vypadat úplně jinak, změnili názor. Naší ambicí je, aby Beey byl nástroj, který lidem reálně šetří čas při každodenní práci.
Zůstáváte v rámci Česka, nebo míříte dál?
V tomto ohledu máme mezinárodní cíle. Jsme úspěšní ve slovanských zemích, pak máme velkého klienta v Rakousku – agenturu APA. A tím pádem se nám podařilo vylepšit němčinu, takže nám teď hodně klientů přichází i z německy mluvících zemí. Aktuálně testujeme i arabštinu a chceme přidat i další jazyky.
Zmínil jste arabštinu – to je přece úplně jiný svět.
To ano. Výzva tam byla hlavně v tom, že se píše zprava doleva. Takže jsme integrovali nástroj, který tohle zvládne. Jak kvalitně si poradí s různými nářečími nebo jemnými odlišnostmi, to říct nedokážu. Ale obecně té technologii věříme. A když se objeví něco lepšího, klidně to vyměníme.
Pro nás bylo hlavní, aby ten nástroj uměl správně pracovat se směrem psaní, dobře vytvořit titulky – velikost, rychlost, aby to bylo čitelné. Zní to jako drobnost, ale třeba pro lidi se sluchovým handicapem je právě časování titulků zásadní.
Takže největší výhoda je rychlost? Že všechno běží zároveň?
Přesně. Dřív jste museli přepisovat zvlášť, pak překládat, pak vytvářet titulky. Teď to můžete dělat v reálném čase, všechno najednou. To je obrovská úspora.
Na Colors of Ostrava jste přepisovali a překládali živě. Vím, že jste tam dosahovali až 95% úspěšnosti.
Záleží, o jaká data jde. Pokud máte dobrý mikrofon a mluvčího, třeba u mediálních výstupů, může to být i 99 %. Na Colours jsme přepisovali a překládali vystoupení v několika jazycích – česky, polsky, anglicky – a někdy to byli odborníci, třeba architekti. To už je pak výzva – nejen zachytit obsah, ale stihnout to během pár vteřin.
To bylo v rámci diskusního fóra?
Jo, přesně tak. A tam se ukázalo, jak důležitý je kontext, technologie potřebuje čas, aby pochopila, co se děje. Když má víc prostoru, přepis je přesnější. Ale když má reagovat hned, v reálném čase, je to složitější.
A všechno tohle běží v Beey AI Editor?
Ano – přepis, překlad, titulky, sumarizace. A co je důležité: všechno můžete upravit. Každý krok je editovatelný. Člověk, který je za obsah zodpovědný, si to projde, upraví, schválí. Nástroj to za něj neudělá, ale ušetří mu čas a práci.
Takže ten systém je vlastně poloviční kolega – udělá první návrh, člověk ho doladí.
Přesně. Každý krok je pod vaší kontrolou. A pokud na tom dělá víc lidí, třeba u soudu, mohou na jednom textu pracovat zároveň – soudce, zapisovatelka, korektor. Všechno je propojené se zvukem, s časem.
To asi pomáhá třeba u rozhovorů nebo diskusí, kde mluví víc lidí najednou.
Hodně. Třeba v soudních síních nebo na jednáních parlamentních výborů má každý svůj mikrofon. My záznamy zpracováváme po jednotlivých stopách a pak je spojujeme dohromady, to výrazně zvyšuje kvalitu výstupu.
Ze zkušenosti ale vím, že občas to rozpozná víc mluvčích, než tam ve skutečnosti bylo.
To je diarizace – rozpoznávání, kdo mluví. Systém poslouchá zvuk a snaží se ho rozdělit podle hlasů. Jenže když třeba posunete skleničku nebo zakašlete, může si myslet, že je to někdo nový. A pak ve výstupu najdete třeba deset mluvčích místo dvou.
Proto chceme přidat funkci, která výstup zpětně optimalizuje. Například – víme, že ve skutečnosti mluvili dva lidé, tak kliknete a systém to převede zpátky jen na dva. Snažíme se, aby nástroj fungoval co nejlíp pro konkrétní situaci.
Co mě osobně překvapilo – díky přepisům jsem si začal víc uvědomovat, jak mluvím. Kolik zbytečných slov používám.
To slyšíme často. Když to vidíte napsané, najednou zjistíte, kolik tam je slovních výplní – „jakoby“, „vlastně“, „že jo“… V mluvené řeči si toho člověk moc nevšimne, ale v textu to bije do očí. Když se to pak zredukuje, výsledek je často o třetinu kratší.
Takže mluvená a psaná řeč jsou opravdu dva různé světy.
Rozhodně. Jinak přemýšlíte, jinak skládáte věty. Pamatuju si, když jsme přepisovali projevy premiéra Fischera. Při poslechu působily dobře, ale když jste to pak četli, bylo tam hrozně moc opakování. Mozek si to při poslechu přefiltruje. Ale jakmile se to převede do psané formy, působí to úplně jinak. Dnes už si ale s takovými problémy umíme dobře poradit - AI úpravou stylu promluvy a odstraněním nadbytečných opakování.
Poslední roky mě baví sledovat, jak moc mohou technologie usnadnit život komukoli, ale obzvlášť lidem s nějakým handicapem. Co v této oblasti nejvíc fascinuje vás?
Asi rychlost těch změn. Když vidíte roboty, u kterých byl ještě před několika lety problém, aby se pohybovali, a oni dnes skáčou a dělají salta. A pak projekty, které jsou něčím výjimečné a jiné. Sledujete Elona Muska, jak si stanovil úkol vyvinout vesmírné rakety, které se budou vracet? Nebo třeba vývoj v automobilovém průmyslu, kdy už je součástí aut vybavení, které vám dokáže zkontrolovat kdeco a v leccos za vás i udělat. Technologie jsou dneska všude kolem nás a mě fascinuje, kolik lidí, i starších, je využívá.
Podle dat Českého statistického úřadu má 96 % naší populace chytrý telefon. To znamená, že i většina seniorů. V tomhle směru mě třeba překvapila má teta v důchodovém věku. Zjistil jsem, že má iPhone a chytré hodinky. Je tedy zbytečné předjímat, že něco už je pro někoho „moc“?
Přesně tak, člověk nikdy neví a mnohdy je překvapen. Četl jsem, že v Ostravě dělali nějaký průzkum, kdy právě se seniory dělali rozhovory, které probíhaly dvěma formami – klasicky a pomocí voicebotu. A ti lidé byli údajně více spokojeni s tím voicebotem (pozn.: systém, který využívá k automatické hlasové komunikaci umělou inteligenci), protože byl laskavější, měl na ně více času.
Myslíte, že tohle je směr, kterým se bude komunikace vyvíjet?
Z toho mám tedy osobně trochu obavu, protože tam chybí ta lidskost.
Doufám, že se to časem všechno uklidní. Vždycky, když přijde něco nového, to vzplane, vyroste, pak to jde postupně dolů a teprve potom to začíná mít nějakou užitnou hodnotu.
Tak doufejme, že to s těmito nástroji bude podobné. Teď je ten boom, ale později půjde o to zasadit to v reálném životě do formy, která bude pomáhat.
Když se podíváme na celý ten vývoj – voiceboti, auta, překladače… Jak byste dnes popsal vztah mezi technologiemi a lidmi? Je to spíš nástroj, partner, sluha?
Já vždycky říkám, že to je nástroj. A že je vždy třeba se zamyslet, k čemu ten nástroj použijete. Protože mnoho informací je čistý marketing a tu cestu, jak s těmi nástroji fungovat, si každý musí najít sám. Aby vám to usnadnilo práci a ušetřilo čas. Ale je dobré si přitom zachovat lidskost a originalitu osobnosti.
Pojďme náš rozhovor zakončit něčím úplně „netechnologickým“. Co děláte, když chcete vypnout a odpočinout si, co vám dělá radost?
Dal jsem se na chození. Pořídili jsme si psa, ridgebacka. A znáte to – kdo se o něj bude starat? Mám moc rád naše dlouhé víkendové procházky v lese. Dřív jsme měli retrívry, ale s těmi jsem moc chodit nechtěl, protože pořád někde zastavovali a něco zkoumali. S ridgebackem jdeme hodinku, hodinku a půl a je to super. Ale snažím se nezanedbávat chůzi i ve všední dny. Když mám v práci chvilku, vyrazím do parku, který máme kousek, a už tam znám všechny trasy.
No a taky jsem už dvojnásobný dědeček, máme kluka a holku, tak to je taky veselé. A rád čtu.
A můžete nám doporučit nějakou knihu, která vás v poslední době zaujala?
Hodně mě oslovila americká kniha Kérky na srdci: Síla milosrdenství bez hranic. Je to kniha o lidech, kteří byli členy různých gangů, a o prostředí, kde je násilí a kriminalita každodenní realitou. Tamní kněz se snaží vytvořit komunitu, kde ti lidé mohou fungovat, pracovat… Je to o možnosti změnit svůj život, o lidských hodnotách.
Aktuálně mám také rozečtenou životopisnou knihu Elona Muska a obecně čtu rád rozhovory se zajímavými lidmi, třeba s Janem Sokolem nebo Zdeňkem Svěrákem.
Petr Herian
(nar. 1969 v Praze) je zakladatelem a majitelem společností NEWTON Media a NEWTON Technologies. Absolvoval Fakultu strojní ČVUT v Praze a dlouhodobě se věnuje inovacím v oblasti hlasových technologií a zpřístupňování informací. Aktivně podporuje řadu neziskových projektů, mimo jiné Centrum Paraple, Nadaci Naše dítě a Konto Bariéry. Technologie vnímá jako nástroj, který dokáže zjednodušovat život a otevírat nové možnosti pro všechny.
Jeho profesním i životním krédem je: Poctivost v podnikatelském, občanském i soukromém životě. Přímost v jednání, bezelstnost v přátelství, svědomitost v práci a v závazcích.
Je ženatý, s manželkou Marií mají pět dětí.
NewtonMedia
Společnost se specializuje na vývoj hlasových technologií. Mezi její klíčové produkty patří BeeyLive, nástroj pro živý přepis a překlad na konferencích, a projekt TV Beey, který během pandemie COVID-19 zpřístupnil televizní obsah lidem se sluchovým postižením. Nejen díky tomu projektu dnes NEWTON vytváří profesionální titulky pro všechny hlavní české televizní stanice. Jeho unikátní Beey AI editor pro zpracování řeči ve slovanských jazycích využívají nejen monitorovací agentury a tiskové kanceláře, ale také banky, soudy, parlamenty, vysoké školy, mediální agentury a další instituce napříč veřejným i soukromým sektorem.
Skupina NEWTON Media zahrnuje sedmnáct firem působících v Česku, na Slovensku, v Polsku, na Balkáně a na Ukrajině. Poskytuje služby všem, kteří potřebují monitorovat a analyzovat média – od evropských institucí a nadnárodních společností přes státní správu a samosprávy až po banky, velké firmy a další organizace z komerční i neziskové sféry.
