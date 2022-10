Un start-up din București a reușit, în doar un an și jumătate, să aducă pe piață cea mai eficientă soluție de recunoaștere vocală și transcriere automată pentru limba română. Fondatorul și CEO-ul Vatis Tech, Adrian Ispas ne-a dezvăluit cum a reușit să depășească giganții Big Tech, cum se descurcă AI-ul cu accentul moldovenesc, dar și ce instituții publice încep să folosească transcrierea automată.

Ideea a venit acum aproximativ 2 ani, povestește Adrian Ispas. Asculta foarte multe podcast-uri și interviuri și erau momente în care voia să deruleze înapoi, să caute o secvență sau replică, ceea ce era foarte dificil fără o transcriere sau un mecanism eficient de căutare în acel fișier audio/video. Așa că s-a gândit, împreună cu colegii săi, să rezolve această problemă, creând un mod eficient de a căuta într-un fișier. Și așa a apărut Vatis Tech.

Existau deja alternative din zona Big Tech, dar, spune Adrian Ispas, nu au acuratețe suficient de mare – ceea ce înseamnă că e nevoie de foarte multă corectură ulterior.

Lipsa datelor, principala dificultate

”Principala dificultate pe care am avut-o privind limba română a fost cea legată de date. Pur și simplu nu există foarte multe date. A trebuit să colectăm noi date de la un client pe care-l aveam atunci, să ne construim o infrastructură de validare de date, să ne căutăm oameni care să ne ajute cu această validare de date”, explică reprezentantul Vatis Tech.

Cum funcționează efectiv Vatis? Sunt 2 etape: prima în care algoritmul ascultă de foarte multe ori date audio, chiar și de 70.000 ori. AI-ul învață astfel cum sună acea limbă din punct de vedere fonetic. Apoi vine o etapă de învățare supervizată, în care datele sunt etichetate și corectate de oameni și trimise înapoi algoritmului, care învață încontinuu și învață din propriile greșeli. În plus, există un layer de NLP care rulează după ce se face transcrierea și care, de pildă, știe unde trebuie puse semnele de punctuație, identifică valorile numerice și le transformă în cifre etc.

Cum înveți AI-ul cu dialectele

În plus, AI-ul Vatis Tech este antrenat acum pentru a transcrie cât mai corect și accentele dialectale. Practic, va asculta înregistrări audio cu vorbitori care au accent moldovenesc sau ardelenesc și va învăța să le transcrie corect. ”Unele accente le identifică și acum destul de OK, dar în momentul de față mai avem câteva probleme. Din nou și asta se rezolvă cu date, în sensul că avem parteneriate în această direcție, cu date specifice din diverse regiuni ale țării, pe care le vom introduce în sistemul nostru de colectare de date, validare și antrenare și în următoarele versiuni va fi mult mai robust pe orice tip de accent”, spune Adrian Ispas

În septembrie 2021 Vatis Tech a ridicat prima rundă de finanțare de 200.000 euro, pe care a investit-o total în dezvoltarea produsului și a tehnologiei. Au început deja discuțiile pentru o nouă rundă de finanțare care va permite intrarea în noi piețe – adică dezvoltarea de algoritmi pentru alte limbi la același nivel de acuratețe ca pentru limba română. Există deja în Vatis Tech limba engleză, iar pe lista scurtă ar fi Portugalia, Franța, Turcia și Polonia. Introducerea unei funcționalități de traducere automată ar fi un alt pas de viitor, deoarece sunt foarte multe cereri pornind de la transcripturile deja generate.

Transcriere specializată pe discursul medical

O nouă funcționalitate pe care o va lansa Vatis Tech este un model de transcriere specializat pe discursul medical, dezvoltat împreună cu un lanț de clinici și care folosește tipuri diferite de date pentru a transcrie un discurs cu o terminologie diferită de cea obișnuită. În aplicație deja există un model de bază, pentru discursul general, și unul specializat, pentru partea legală, utilizat în acest moment de instanțe de judecată.

”Nu vrem să luăm job-urile nimănui sau să dăm pe cineva la o parte, ci pur și simplu noi ajutăm și venim în ajutorul oamenilor. Gândiți-vă la grefieri. Pur și simplu trebuie să stea, să transcrie acele ședințe de judecată”, spune Adrian Ispas. ”Cu soluția noastră au transcris acel audio și apoi doar mai trec o dată prin el și-l corectează acolo unde e cazul, pentru că în platforma noastră web ai și un editor text. Scutesc foarte mult timp, e de 10 ori mai eficient decât dacă ai face munca manual. Practic, într-o instanță de judecată, în loc să faci un dosar, poți să faci 10 dosare. Imaginați-vă cât de mult durează procesele la noi în țară și cum ar fi o eficientizare acesta de genul la nivel național, în toate instanțele de judecată.”

Un alt domeniu de interes în viitor este cel de transcriere în timp real pentru emisiuni live, dar și automatizări de tip ”order by voice”– prin care dictezi într-o aplicație de food delivery sau e-commerce produsul pe care îl dorești.

Se poate obține acuratețe de 100%?

La ce acuratețe a transcrierii se poate ajunge? ”La nivelul actual al tehnologiei se poate atinge o acuratețe de 99,9%, pentru că 100% nici noi ca oameni nu avem, avem un nivel de acuratețe între 95 și 99. Viziunea noastră asupra tehnologiei este să ducem algoritmul la acest nivel, între 95% și 99% ceea ce ne-a ieșit în momentul de față”, spune Adrian Ispas.

Există și soluții adaptate la necesitățile clienților: de pildă, modelul ”legal” a apărut ca urmare a cerințelor unei curți de apel care avea înregistrări destul de slabe calitativ și cu zgomot de fundal. Algoritmul a fost îmbunătățit special pentru acele condiții iar acesta, spune Adrian Ispas, e un mare diferențiator față de Big Tech, unde nu poți veni cu cerințe specifice.

Audio, până la urmă, e un format de date foarte dificil, sunt foarte multe accente, sunt foarte multe contexte, sunt foarte multe vocabulare. Deși pentru noi comunicarea prin voce e foarte naturală, nu e la fel și pentru AI. Adrian Ispas, CEO Vatis Tech

Vatis Tech este deja în discuții cu zona publică pentru diverse soluții de transcriere: de pildă, transcrierea cursurilor universitare. Un alt exemplu ar fi ședințele publice ale instituțiilor – consilii locale, județene. Acestea trebuie acum transcrise manual, când operațiunea ar putea fi automatizată.

Cum a reușit Vatis Tech să depășească Big Tech?

Cum a reușit o mică companie din România ceva ce giganții tehnologiei nu au izbutit? ”E o întrebare pe care o primesc foarte des”, spune CEO-ul Vatis. ”Dacă ești Big Tech nu înseamnă că o să faci un produs foarte reușit”.

”Principala noastră diferențiere e că noi, având foarte mult focus pe zona de speech-to-text și punând foarte mult accent pe implementare și pe calitatea produsului pe care vrem să îl livrăm, am reușit să construim lucrurile astea. Asta e principalul diferențiator față de de Big Tech, pentru că noi chiar suntem foarte pasionați de lucrul acesta. Am dovedit că știm cum să facem pe română, știm cum să facem și pe alte limbi, știm cum s-o replicăm și o vom face”, conchide Adrian Ispas.

Acest transcript a fost realizat cu ajutorul soluției software Vatis Tech care asigură cea mai bună acuratețe în limba română: 95%+

Sursa foto: wall-street.ro

