recunoaștere vocală

De recunoaștere a vocii sau recunoașterea automată a vorbirii este o ramură a aplicat informatică , inginerie și lingvistică computațională . Ea este preocupată de investigarea și dezvoltarea proceselor care fac ca limbajul vorbit de achiziție automată de date să fie accesibil mașinilor, în special computerelor . De recunoaștere a vorbirii trebuie să fie distinsă de identificare voce sau difuzor, o biometrice metodă de identificare personală. Cu toate acestea, realizările acestor procese sunt similare.

dezvoltare istorica

Cercetările privind sistemele de recunoaștere a vorbirii au început în anii 1960, dar nu au reușit în mare măsură la momentul respectiv: sistemele dezvoltate de companiile private au făcut posibilă recunoașterea câtorva zeci de cuvinte individuale în condiții de laborator . Acest lucru s-a datorat, pe de o parte, cunoștințelor limitate în acest nou domeniu de cercetare, dar și posibilităților tehnice limitate la momentul respectiv.

Abia la mijlocul anilor 1980, dezvoltarea a avansat. În acest timp s-a descoperit că se pot distinge homofoni prin teste de context . Prin compilarea și evaluarea statisticilor privind frecvența anumitor combinații de cuvinte, a fost posibil să se decidă ce cuvânt a fost destinat cuvintelor similare sau cu sunete similare. Aceste așa-numite statistici ale trigramei au devenit apoi o parte importantă a tuturor sistemelor de recunoaștere a vorbirii. În 1984, IBM a introdus primul sistem de recunoaștere a vorbirii care putea recunoaște aproximativ 5.000 de cuvinte individuale în limba engleză. Cu toate acestea, sistemul a necesitat câteva minute de timp de calcul pe un mainframe pentru un proces de recunoaștere . Pe de altă parte, un sistem dezvoltat de Dragon Systems a fost mai progresiv: acesta ar putea fi folosit pe un computer portabil.

Între 1988 și 1993, proiectul european SUNDIAL a demonstrat, de asemenea, recunoașterea vocală a orarelor trenurilor în limba germană. SUNDIAL a studiat, de asemenea, indicatorii de evaluare a recunoașterii vocii.

În 1991, IBM a prezentat pentru prima dată un sistem de recunoaștere a vorbirii la CeBIT care putea recunoaște 20.000 până la 30.000 de cuvinte germane. Cu toate acestea, prezentarea sistemului numit TANGORA 4 trebuia să aibă loc într-o cameră special ecranată, deoarece altfel zgomotul de la târg ar fi perturbat sistemul.

La sfârșitul anului 1993, IBM a prezentat primul sistem de recunoaștere a vorbirii dezvoltat pentru piața de masă: sistemul numit IBM Personal Dictation System funcționa pe PC-uri normale și costa mai puțin de 1.000 USD. Când a fost prezentat sub numele IBM VoiceType Dictation System la CeBIT 1994, sa întâlnit cu un mare interes din partea vizitatorilor și a presei comerciale.

În 1997, atât IBM ViaVoice software - ul (succesorul la IBM VoiceType) și versiunea 1.0 a Dragon NaturallySpeaking software - ul a apărut pentru utilizatorii finali PC . În 1998, Philips Speech Recognition Systems a lansat FreeSpeech 98, o recunoaștere a vorbirii pentru utilizatorii finali ai computerului, ale cărei controale au fost adaptate înregistratorului de voce digital SpeechMike, dar au întrerupt linia de produse după a doua versiune, FreeSpeech 2000. În 2004, IBM a lansat părți din aplicațiile sale de recunoaștere a vorbirii ca open source , provocând senzație. Specialiștii din industrie au suspectat măsuri tactice împotriva Microsoft , care este, de asemenea, activă în acest domeniu și din 2007, odată cu apariția sistemului său de operare Windows Vista PC ca o componentă integrală pentru prima dată, oferind pentru prima dată funcții de recunoaștere vocală pentru control , precum și pentru dictare, care sunt încă în Windows 10, au fost dezvoltate în continuare.

În timp ce dezvoltarea IBM ViaVoice a fost întreruptă, Dragon NaturallySpeaking a devenit cel mai popular software de recunoaștere a vorbirii de la terțe părți pentru computerele Windows de astăzi și a fost fabricat și vândut de Nuance Communications încă din 2005.

Odată cu achiziționarea sistemelor de recunoaștere a vorbirii Philips , Viena, în 2008, Nuance a dobândit, de asemenea, drepturile asupra kitului de dezvoltare software SpeechMagic (SDK) , care este deosebit de popular în sectorul sănătății. Pentru computerele personale iMac de la Apple , MacSpeech vinde din 2006 software de recunoaștere a vorbirii de la terți sub numele iListen, care se baza pe componente Philips. În 2008, acest lucru a fost înlocuit de MacSpeech Dictate folosind componentele de bază ale Dragon NaturallySpeaking și redenumit Dragon Dictate (Versiunea 2.0 - Versiunea 3.0 a fost distribuită din 2012) după ce Nuance Communications a achiziționat MacSpeech în 2010.

Compania Siri Inc. a fost fondată în 2007 și cumpărată de Apple în aprilie 2010. În octombrie 2011, Apple a prezentat software-ul de recunoaștere a vorbirii Siri pentru iPhone 4s, care recunoaște și procesează limbajul vorbit în mod natural (folosind servere Apple) și este destinat să îndeplinească funcțiile unui asistent personal.

Statusul curent

În prezent, se poate face o distincție largă între două tipuri de recunoaștere a vorbirii:

  • Recunoașterea vorbirii independentă de vorbitor
  • Recunoașterea vorbirii dependentă de vorbitor

O caracteristică a recunoașterii vorbirii „independentă de vorbitor” este proprietatea că utilizatorul poate începe imediat cu recunoașterea vorbirii fără o etapă de pregătire anterioară. Cu toate acestea, vocabularul este limitat la câteva mii de cuvinte.

Recunoscătoarele de vorbire „dependente de difuzor” sunt instruite de utilizator cu privire la particularitățile proprii ale pronunției înainte de utilizare (în sistemele mai noi: în timpul utilizării). Un element central este posibilitatea interacțiunii individuale cu sistemul pentru a obține un rezultat optim dependent de vorbitor (termeni proprii, abrevieri, abrevieri etc.). Nu are sens să îl utilizați în aplicații cu utilizatori care se schimbă frecvent (de exemplu, centre de apel). În comparație, vocabularul este mult mai mare decât cel al recunoașterilor independenți de vorbitor. Sistemele actuale conțin peste 300.000 de forme de cuvinte. De asemenea, trebuie făcută o distincție între:

  • Sisteme front-end și
  • Sisteme back-end.

În sistemele front-end , limba este procesată și convertită în text imediat, astfel încât utilizatorul să poată citi rezultatul practic fără întârzieri semnificative. Implementarea se poate face pe computerul utilizatorului sau în cloud. Interacțiunea directă între utilizator și sistem permite obținerea celei mai înalte calități de recunoaștere. Sistemul poate fi, de asemenea, controlat folosind comenzi și alte componente, cum ar fi sistemele de asistență în timp real. Cu toate acestea, în sistemele back-end , implementarea se realizează cu o întârziere. Acest lucru are loc de obicei pe un server la distanță . Textul este disponibil numai după o întârziere. Astfel de sisteme sunt încă răspândite în domeniul medical. Deoarece nu există nicio interacțiune directă între difuzor și rezultatul recunoașterii, se poate aștepta la o calitate excepțională numai dacă utilizatorul are deja experiență în recunoașterea vorbirii.

Recunoașterea vorbirii „independentă de vorbitor” este preferată în aplicațiile tehnice, de exemplu în sistemele automate de dialog, cum ar fi informațiile privind orarul. Oriunde se folosește doar un vocabular limitat, recunoașterea vorbirii independentă de vorbitor este practicată cu succes. Sistemele de recunoaștere a cifrelor engleze vorbite de la 0 la 9 ating o rată de recunoaștere de aproape 100%.

Cu ajutorul recunoașterii vorbirii „dependente de vorbitor”, se pot atinge rate de recunoaștere foarte mari. Cu toate acestea, chiar și o precizie de 95% poate fi percepută ca fiind prea scăzută, deoarece prea mult trebuie îmbunătățit. Interacțiunea dintre utilizator și sistem, care îi permite utilizatorului să influențeze direct sau indirect rezultatul recunoașterii personale, este decisivă pentru succesul recunoașterii vorbirii „dependente de vorbitor”.

Între timp, sistemele actuale ating rate de recunoaștere de aproximativ 99% atunci când dictează texte continue pe computerele personale și astfel îndeplinesc cerințele practicii pentru multe domenii de aplicare, de ex. B. pentru texte științifice, corespondență de afaceri sau briefuri juridice. Utilizarea acestuia își atinge limitele în cazul în care autorul respectiv are nevoie în mod constant de cuvinte noi și forme de cuvinte care inițial nu sunt recunoscute de software, care pot fi adăugate manual, dar nu sunt eficiente dacă apar doar o singură dată în textele aceluiași vorbitor. Prin urmare, z. B. Densează mai puțin din utilizarea recunoașterii vorbirii decât z. B. Medici și avocați .

Pe lângă dimensiunea și flexibilitatea dicționarului, calitatea înregistrării acustice joacă, de asemenea, un rol decisiv. Cu microfoanele care sunt plasate direct în fața gurii (de exemplu, căști sau telefoane), se obține o precizie de recunoaștere semnificativ mai mare decât cu microfoanele de cameră mai îndepărtate.

Cu toate acestea, cei mai importanți factori de influență din practică sunt pronunția precisă și dictarea vorbită coerentă, astfel încât conexiunile de cuvinte și probabilitățile de succesiune a cuvintelor să poată curge în mod optim în procesul de recunoaștere.

Dezvoltarea recunoașterii vorbirii se desfășoară foarte repede. Astăzi (începând din 2016) sistemele de recunoaștere a vorbirii sunt printre altele. utilizat în smartphone-uri de ex. B. cu Siri , Google Now , Cortana și Samsung S Voice . Sistemele actuale de recunoaștere a vorbirii nu mai trebuie instruite. Plasticitatea sistemului este decisivă pentru un nivel ridicat de precizie în afara limbajului cotidian. Pentru a putea satisface cerințele ridicate, sistemele profesionale oferă utilizatorului posibilitatea de a influența rezultatul personal prin prescriere sau audiție.

Citit pe buze

Pentru a crește și mai mult acuratețea recunoașterii, uneori se încearcă filmarea feței vorbitorului cu ajutorul unei camere video și citirea mișcărilor buzelor din aceasta . Combinând aceste rezultate cu rezultatele detectării acustice, puteți obține o rată de detectare semnificativ mai mare, în special cu înregistrări zgomotoase.

Aceasta corespunde observațiilor făcute în recunoașterea vorbirii umane: Harry McGurk a constatat în 1976 că oamenii deduc și limba vorbită din mișcarea buzelor ( efectul McGurk ).

Ieșire vocală

Întrucât comunicarea cu limbajul uman este de obicei un dialog între doi interlocutori, recunoașterea vorbirii se găsește adesea în legătură cu sinteza vorbirii . În acest fel, utilizatorului sistemului i se poate oferi feedback acustic despre succesul recunoașterii vorbirii și informații despre orice acțiuni care ar fi putut fi efectuate. În același mod, utilizatorului i se poate cere, de asemenea, să dea o altă intrare vocală.

Problemă

Pentru a înțelege cum funcționează un sistem de recunoaștere a vorbirii, trebuie mai întâi să fie clar despre provocările care trebuie depășite.

Limbaj discret și continuu

Într-o propoziție în limbajul cotidian, cuvintele individuale sunt pronunțate fără o pauză vizibilă între ele. Ca ființă umană, se poate orienta intuitiv către tranzițiile dintre cuvinte - sistemele anterioare de recunoaștere a vorbirii nu au putut face acest lucru. Au cerut un limbaj discret (întrerupt) cu pauze artificiale între cuvinte.

Cu toate acestea, sistemele moderne sunt, de asemenea, capabile să înțeleagă limbajul continuu (fluent).

Limbaj discret

Graficul propoziției: „Enciclopedia liberă”, pronunțată discret

În limbaj discret, puteți vedea clar pauzele dintre cuvinte, care sunt mai lungi și mai clare decât tranzițiile dintre silabe din cuvântul enciclopedie .

Limbaj continuu

Graficul propoziției: „Enciclopedia liberă”, pronunțată continuu

În limbaj continuu, cuvintele individuale se îmbină între ele, nu există pauze.

Dimensiunea vocabularului

Prin flexiune , adică flexiunea unui cuvânt în funcție de funcția sa gramaticală, tulpinile de cuvinte ( lexeme ) duc la o multitudine de forme de cuvinte. Acest lucru este important pentru dimensiunea vocabularului, deoarece toate formele de cuvinte trebuie privite ca cuvinte independente în recunoașterea vorbirii.

Dimensiunea dicționarului depinde în mare măsură de limbă. Pe de o parte, vorbitorii de limbă germană medie au un vocabular semnificativ mai mare, cu aproximativ 4000 de cuvinte, decât vorbitorii de engleză cu aproximativ 800 de cuvinte. În plus, flexiunea în limba germană are ca rezultat aproximativ zece ori mai multe forme de cuvinte decât în limba engleză , unde există doar de patru ori mai multe forme de cuvinte. (Citează surse)

Omofoni

În multe limbi există cuvinte sau forme de cuvinte care au semnificații diferite, dar sunt pronunțate la fel. Cuvintele „mare” și „mai mult” sună identic, dar încă nu au nimic de-a face unul cu celălalt. Astfel de cuvinte se numesc homofoane . Întrucât un sistem de recunoaștere a vorbirii, spre deosebire de oameni, nu are, în general, cunoștințe despre lume , nu poate face diferența între diferitele posibilități pe baza sensului.

În această zonă intră și problema majusculelor sau minusculelor.

Formanți

La nivel acustic, poziția formanților îndeosebi joacă un rol: componentele de frecvență ale vocalelor vorbite se concentrează de obicei pe anumite frecvențe diferite, care sunt numite formanți. Cei mai mici formanți sunt deosebit de importanți pentru a distinge între vocale: frecvența mai mică este cuprinsă între 200 și 800 Hz , frecvența mai mare în intervalul 800 - 2400 Hz. Vocalele individuale se pot distinge prin poziția acestor frecvențe.

Consonante

„Vorbește” vorbit, original
„P” ascuns

Consonantele sunt relativ dificil de recunoscut; De exemplu, consoanele individuale (așa-numitele plozive ) pot fi determinate numai prin tranziția la sunetele vecine, așa cum arată următorul exemplu:

Se recunoaște că în cadrul cuvântului vorbi consoana p (mai exact: faza de închidere a fonemului p ) este de fapt doar tăcere și este recunoscută doar prin tranzițiile către celelalte vocale - eliminarea acestuia nu face o diferență audibilă.

Alte consoane pot fi recunoscute după tiparele lor spectrale caracteristice. Sunetul s , precum și sunetul f ( fricative ) sunt caracterizate de o proporție mare de energie în benzi de frecvență mai mari. Este de remarcat faptul că majoritatea informațiilor relevante pentru a distinge aceste două sunete se află în afara intervalului spectral transmis în rețelele de telefonie (până la aproximativ 3,4 kHz). Acest lucru explică de ce ortografia prin telefon fără utilizarea unui alfabet special de ortografie este extrem de laborioasă și predispusă la erori, chiar și în comunicarea dintre două persoane.

Dialecte și sociolecte

Chiar dacă un program de recunoaștere a vorbirii este deja bine adaptat la un limbaj de nivel înalt , acest lucru nu înseamnă că poate înțelege fiecare formă a limbii respective. Astfel de programe își ating adesea limitele, mai ales în cazul dialectelor și sociolectelor . Oamenii sunt de obicei capabili să se adapteze rapid la dialectul posibil necunoscut al omologului lor - software-ul de recunoaștere nu este capabil să facă acest lucru cu ușurință. Dialectele trebuie mai întâi predate programului în procese complexe.

În plus, trebuie remarcat faptul că semnificațiile cuvintelor se pot schimba ocazional în funcție de regiune. De exemplu, Bavaria și Berlin înseamnă deserturi diferite atunci când vorbesc despre „clătite”. Având cunoștințe de fond cultural, o persoană poate evita și clarifica astfel de neînțelegeri mai ușor decât software-ul este capabil să facă în prezent.

Strategii de soluționare pentru probleme de comunicare

Dacă există probleme de înțelegere a unei comunicări, oamenii tind să vorbească în mod natural deosebit de tare sau să parafrazeze mai detaliat termeni neînțelegiți. Cu toate acestea, acest lucru poate avea un efect contraproductiv asupra unui computer, deoarece este instruit să gestioneze volumul normal al conversației și, de asemenea, funcționează cu cuvinte cheie, mai degrabă decât cu contexte.

realizare

Dezvoltarea unui sistem de recunoaștere a vorbirii conform lui Alexander Waibel

Un sistem de recunoaștere a vorbirii constă din următoarele componente: Preprocesare, care descompune semnalele de vorbire analogice în frecvențe individuale. Apoi, recunoașterea efectivă are loc cu ajutorul modelelor acustice, dicționarelor și modelelor lingvistice.

Preprocesare

Preprocesarea constă în esență din pașii de eșantionare , filtrare, transformarea semnalului în domeniul frecvenței și crearea vectorului caracteristică .

Scanare

La scanare , semnalul analogic (continuu) este digitalizat , adică defalcat într-o secvență de biți procesabilă electronic, astfel încât să poată fi procesată mai ușor.

Filtrare

Cea mai importantă sarcină a etapei de filtrare este de a face distincția între zgomotele ambientale precum zgomotul sau de ex. B. Zgomotul motorului și limbajul. De exemplu, energia semnalului sau rata de trecere zero este utilizată în acest scop.

transformare

Nu semnalul orar, ci semnalul din gama de frecvențe este relevant pentru recunoașterea vorbirii . Pentru a face acest lucru, acesta este transformat folosind FFT . Componentele de frecvență prezente în semnal pot fi citite din rezultat, spectrul de frecvență .

Vector caracteristică

Se creează un vector caracteristică pentru recunoașterea vorbirii . Acesta constă din caracteristici independente sau dependente reciproc care sunt generate de semnalul vocal digital. În plus față de spectrul deja menționat, acesta include mai presus de toate cepstrum. Vectorii de caracteristici pot fi z. B. comparați prin intermediul unei valori definite anterior .

Cepstrum

Cepstrum se obține din spectrul prin formarea FFT spectrul de magnitudine logarithmized. Acest lucru permite ca periodicitățile să fie recunoscute în spectru. Acestea sunt generate în tractul vocal uman și prin stimularea corzilor vocale. Periodicitățile datorate stimulării corzilor vocale predomină și, prin urmare, se găsesc în partea superioară a cepstrumului, în timp ce partea inferioară descrie poziția tractului vocal. Acest lucru este relevant pentru recunoașterea vorbirii, deci numai aceste părți inferioare ale cepstrumului curg în vectorul caracteristică. Deoarece funcția de transfer de spațiu - adică schimbarea semnalului z. B. prin reflecții pe pereți - nu modificate în timp, aceasta poate fi reprezentată de valoarea medie a cepstrumului. Prin urmare, acest lucru este adesea scăzut din cepstrum pentru a compensa ecourile. Primul derivat al cepstrumului, care poate curge și în vectorul caracteristică, trebuie utilizat și pentru a compensa funcția de transfer de spațiu.

recunoaştere

Modelul unui recunoscător de vorbire bazat pe un model ascuns Markov

Modele ascunse Markov

În cursul următor al procesului, modelele ascunse Markov (HMM) joacă un rol important. Acestea fac posibilă găsirea fonemelor care se potrivesc cel mai bine semnalelor de intrare. Pentru a face acest lucru, modelul acustic al unui fonem este împărțit în diferite părți: începutul, un număr diferit de secțiuni de mijloc în funcție de lungime și sfârșit. Semnalele de intrare sunt comparate cu aceste secțiuni stocate și se caută posibile combinații folosind algoritmul Viterbi .

Pentru recunoașterea vorbirii întrerupte (discrete) (în care se face o pauză după fiecare cuvânt) este suficient să se calculeze un cuvânt împreună cu un model de pauză în cadrul HMM. Deoarece capacitatea de calcul a computerelor moderne a crescut semnificativ, limbajul curent (continuu) poate fi acum recunoscut și prin crearea unor modele mai mari ascunse Markov care constau din mai multe cuvinte și tranzițiile dintre ele.

Rețele neuronale

Alternativ, s-au făcut deja încercări de utilizare a rețelelor neuronale pentru modelul acustic. Cu rețelele neuronale cu întârziere în timp , în special modificările spectrului de frecvență pe parcursul timpului ar trebui utilizate pentru detectare. Dezvoltarea a adus inițial rezultate pozitive, dar a fost apoi abandonată în favoarea HMM-urilor. Abia în ultimii ani acest concept a fost redescoperit în contextul rețelelor neuronale profunde. Sistemele de recunoaștere a vorbirii bazate pe învățarea profundă oferă rate de recunoaștere în domeniul uman.

Dar există și o abordare hibridă în care datele obținute din preprocesare sunt preclasificate de o rețea neuronală, iar ieșirea rețelei este utilizată ca parametru pentru modelele ascunse Markov. Acest lucru are avantajul că puteți utiliza, de asemenea, date din puțin înainte și puțin după perioada tocmai procesată, fără a crește complexitatea HMM-urilor. În plus, clasificarea datelor și compoziția sensibilă la context (formarea de cuvinte / propoziții semnificative) pot fi separate una de cealaltă.

Model de limbă

Modelul lingvistic încearcă apoi să determine probabilitatea anumitor combinații de cuvinte și, prin urmare, să excludă ipoteze false sau improbabile. În acest scop poate fi folosit fie un model gramatical care utilizează gramatici formale, fie un model statistic care utilizează N-grame .

O statistică bi- sau trigramă stochează probabilitatea apariției combinațiilor de cuvinte de două sau mai multe cuvinte. Aceste statistici sunt obținute din corpusuri mari de text (exemple de texte ). Fiecare ipoteză determinată de recunoașterea vorbirii este apoi verificată și, dacă este necesar, eliminată dacă probabilitatea sa este prea mică. Aceasta înseamnă că se pot distinge și homofoane, adică cuvinte diferite cu o pronunție identică. „Mulțumesc” ar fi mai probabil decât „Mulțumesc căzut”, deși ambele sunt pronunțate la fel.

Cu trigrame, sunt posibile estimări teoretic mai precise ale probabilității de apariție a combinațiilor de cuvinte în comparație cu bigramele. Cu toate acestea, exemplele de baze de date de text din care sunt extrase trigramele trebuie să fie semnificativ mai mari decât pentru bigramele, deoarece toate combinațiile de cuvinte permise de trei cuvinte trebuie să apară într-un număr semnificativ statistic (de exemplu: fiecare semnificativ mai mult de o dată). Combinațiile a patru sau mai multe cuvinte nu au fost folosite de mult timp, deoarece, în general, nu mai este posibil să se găsească exemple de baze de date text care conțin un număr suficient de toate combinațiile de cuvinte. O excepție este Dragon, care din versiunea 12 folosește și pentagrame - ceea ce mărește precizia recunoașterii în acest sistem.

Când se utilizează gramatici, acestea sunt în general gramatici fără context . Cu toate acestea, fiecărui cuvânt trebuie să i se atribuie funcția în cadrul gramaticii. Din acest motiv, astfel de sisteme sunt utilizate de obicei numai pentru un vocabular limitat și aplicații speciale, dar nu în software-ul comun de recunoaștere a vorbirii pentru PC-uri.

Evaluare

Calitatea unui sistem de recunoaștere a vorbirii poate fi indicată cu numere diferite. În plus față de viteza de recunoaștere - dată de obicei ca factor în timp real (EZF) - calitatea recunoașterii poate fi măsurată ca acuratețe a cuvintelor sau rata de recunoaștere a cuvintelor .

Vocabular

Pentru integrarea sistemelor profesionale de recunoaștere a vorbirii, există deja vocabulare predefinite care sunt destinate să faciliteze munca cu recunoașterea vorbirii. Aceste vocabulare sunt menționate în zona SpeechMagic ConText și în zona Dragon Datapack . Cu cât vocabularul este mai bun adaptat la vocabularul și stilul de dictare (frecvența secvențelor de cuvinte) utilizate de vorbitor, cu atât precizia recunoașterii este mai mare. În plus față de lexiconul independent de vorbitor (vocabularul tehnic și de bază), un vocabular include și un model individual de succesiune de cuvinte (model de limbă). Toate cuvintele cunoscute de software sunt stocate în vocabular în fonetică și ortografie. În acest fel, sistemul recunoaște un cuvânt rostit prin sunetul său. Dacă cuvintele diferă prin semnificație și ortografie, dar sună la fel, software-ul folosește modelul de secvență de cuvinte. Acesta definește probabilitatea cu care un cuvânt urmează altul pentru un anumit utilizator. Recunoașterea vorbirii pe smartphone-uri folosește aceleași concepte tehnice, dar fără ca utilizatorul să aibă vreo influență asupra vocabularului predefinit. Tehnologiile mai noi se îndepărtează de ideea unei liste rigide de cuvinte stocate, deoarece se pot forma cuvinte compuse. Ceea ce au în comun toate sistemele este că pot învăța cuvinte și fraze individuale doar făcând corecții de către utilizatorul respectiv.

Exemple de aplicații

Recunoașterea vorbirii este folosită astăzi printre altele. utilizat în smartphone-uri de ex. B. cu Siri , Google Now , Cortana , Amazon's Echo / Alexa și Samsung S Voice . Acum, cu fiabilitatea ridicată în limbajul de zi cu zi (de exemplu, ca smartphone-uri) sau poate în limbajul jargonului (sisteme profesionale individualizate) convertite în text (vorbire în text) , se efectuează comenzi și controale de rulare (comandă și control) sau analize semantice ( înțelegerea limbajului) .

Vezi si

literatură

  • Pirani, Giancarlo, ed.: Algoritmi și arhitecturi avansate pentru înțelegerea vorbirii. Vol. 1. Springer Science & Business Media, 2013. ISBN 978-3-642-84341-9 .
  • Lawrence R. Rabiner, Ronald W. Schafer: Prelucrarea digitală a semnalelor vocale , 1978, ISBN 0-13-213603-1 .
  • Matthias Woelfel, John McDonough: Distant Speech Recognition , 2009, ISBN 0-470-51704-2 .
  • Lawrence R. Rabiner, Biing-Hwang Juang Juang: Fundamentals of Speech Recognition , 1993, ISBN 0-13-015157-2 .
  • Ernst Günter Schukat-Talamazzini: Recunoașterea automată a vorbirii. Noțiuni de bază, modele statistice și algoritmi eficienți , Vieweg, Braunschweig / Wiesbaden 1995, ISBN 3-528-05492-1 .

Link-uri web

Wikționar: Recunoașterea vorbirii  - explicații ale semnificațiilor, originea cuvintelor, sinonime, traduceri

umfla

  1. Înțelegerea vorbirii și dialogul. Adus la 22 mai 2020 .
  2. ^ Peckham, Jeremy: Înțelegerea vorbirii și dialogul la telefon: o prezentare generală a proiectului ESPRIT SUNDIAL. LDS. 1991.
  3. Danieli, Morena; Elisabetta Gerbino: Metrici pentru evaluarea strategiilor de dialog într-un sistem de limbă vorbită. Lucrările simpozionului de primăvară AAAI din 1995 privind metodele empirice în interpretarea și generarea discursului. Vol. 16. 1995.
  4. ^ Ciaramella, Alberto: Un raport de evaluare a performanței prototipului. Pachet de lucru cu cadran solar 8000 (1993).
  5. ^ Charpentier, F., Micca, G., Schukat-Talamazzini, E., Thomas, T. (1995): Componenta de recunoaștere a proiectului SUNDIAL. În: Recunoașterea și codarea vorbirii (pp. 345-348). Springer Berlin Heidelberg.
  6. Michael Spehr: Dictarea este mult mai rapidă decât tastarea. În: FAZ.net . 22 septembrie 2010, accesat la 13 octombrie 2018 .
  7. L. Lamel, J.-L. Gauvain: Recunoașterea vorbirii. Oxford Handbooks Online (Vol. 14) . Oxford University Press, 2005. doi: 10.1093 / oxfordhb / 9780199276349.013.0016
  8. Malaka, Rainer; Butz, Andreas; Hußmann, Heinrich: Medieninformatik: O introducere. Pearson Studium, München 2009, ISBN 978-3-8273-7353-3 , p. 263.
  9. Ulf Schoenert: Recunoașterea vorbirii: normalitatea conversațiilor cu mașinile. În: Zeit Online. 14 februarie 2012, accesat la 6 februarie 2016 .
  10. https://www.infoq.com/news/2017/03/ibm-speech-recognition
Acest articol a fost adăugat la lista articolelor care merită citite la 14 noiembrie 2006 în această versiune .