Sinteza vorbirii

Schema pentru „Voder” de Homer Dudley (1940)

Sub sinteză de vorbire se înțelege producția artificială a vocii vorbitoare umane . Un sistem text-to-speech ( TTS ) (sau un aparat de citit ) convertește textul care rulează în ieșire vocală acustică .

Practic, se pot distinge două abordări ale generării de semnale de vorbire. Pe de o parte, înregistrările vocale ( probe ) pot fi utilizate prin așa-numita modelare a semnalului . Pe de altă parte, semnalul poate fi generat complet în computer prin așa-numita modelare fiziologică (articulară). În timp ce primele sisteme s-au bazat pe sinteza formanților , sistemele utilizate în prezent în industrie se bazează predominant pe modelarea semnalului.

O problemă specială pentru sinteza vorbirii este generarea unei melodii naturale de vorbire ( prosodie ).

istorie

Replica „aparatului de vorbire” de Wolfgang von Kempelen (2009)
Replica construcției de Hermann von Helmholtz (1865)
Demonstrația „Voder” în 1939

Cu mult înainte de invenția procesării electronice a semnalului , oamenii de știință au încercat să construiască mașini care să poată genera vorbire umană. Lui Gerbert von Aurillac (1003) i se atribuie un „cap vorbitor” din bronz, din care s-a raportat că ar putea spune „da” și „nu”. Aparatul lui Albertus Magnus (1198–1280) și al lui Roger Bacon (1214–1294) aparține mai mult domeniului legendelor .

În 1779, omul de știință german Christian Kratzenstein , care a lucrat la Copenhaga, a construit un „organ de vorbire” bazat pe un concurs organizat de Academia din Sankt Petersburg, care a fost capabil să sintetizeze cinci vocale lungi (a, e, i, o și u ) folosind țevi linguale cu oscilație liberă cu tractul vocal uman . Wolfgang von Kempelen dezvoltase o mașină de vorbit încă din jurul anului 1760 , pe care a prezentat-o ​​în 1791 în publicația sa „Mecanismul limbajului uman împreună cu descrierea mașinii sale de vorbire”. La fel ca a lui Kratzenstein, această sinteză s-a bazat pe o burduf ca echivalent pulmonar, dar stimularea efectivă a fost mult mai aproape de anatomia unui fluier lingual unic, izbitor. Acest lucru a făcut posibile câteva vocale și plozive. În plus, o serie de fricative ar putea fi reprezentate folosind diverse mecanisme. Un cablu de piele a fost atașat la corzile vocale, care ar putea fi deformat cu o singură mână, simulând astfel geometria variabilă și comportamentul de rezonanță al tractului vocal. Von Kempelen a scris:

„Obțineți o abilitate admirabilă în a juca într-o perioadă de trei săptămâni, mai ales dacă treceți la limba latină, franceză sau italiană, deoarece germana este mult mai dificilă [datorită pachetelor frecvente de consoane] .”

Charles Wheatstone a construit o mașină de vorbire bazată pe acest design în 1837 , o replică poate fi găsită în Deutsches Museum . În 1857 Joseph Faber a construit Euphonia , care urmează , de asemenea , acest principiu.

La sfârșitul secolului al XIX-lea, interesul s-a dezvoltat departe de reproducerea organelor vorbirii umane (sinteza genetică a vorbirii) către simularea spațiului acustic (sinteza genematică a vorbirii). De exemplu, Hermann von Helmholtz a sintetizat vocale pentru prima dată cu ajutorul furcilor de acordare, care au fost acordate la frecvențele de rezonanță ale tractului vocal în anumite poziții vocale. Aceste frecvențe de rezonanță se numesc formanți . Sinteza vorbirii prin combinarea formanților a fost tehnică generală până la mijlocul anilor 1990.

Vocoderulîntr - un sintetizator de vorbire electronică de la tastatură controlat , care a fost declarat a fi în mod clar de înțeles, a fost dezvoltat la Bell Labs în 1930 . Homer Dudley a îmbunătățit această mașină la Voder , care a fost prezentată la Târgul Mondial din 1939 . Voder a folosit oscilatoare electrice pentru a genera frecvențele formante.

Primele sisteme de sinteză a vorbirii pe computer au fost dezvoltate la sfârșitul anilor 1950, iar primul sistem complet de tip text-to-speech a fost finalizat în 1968. Fizicianul John Larry Kelly, Jr. a dezvoltat o sinteză de vorbire cu un IBM 704 la Bell Labs în 1961 și l-a pus să cânte piesa Daisy Bell . Regizorul Stanley Kubrick a fost atât de impresionat de el, încât l-a încorporat în 2001: A Space Odyssey .

prezenţă

În timp ce sintezele de vorbire electronice timpurii păreau încă foarte robotizate și erau uneori dificil de înțeles, de la începutul mileniului au obținut o calitate uneori dificil de distins de vorbitorii umani. Acest lucru se datorează în principal faptului că tehnologia s-a îndepărtat de sinteza efectivă a semnalului de vorbire și se concentrează pe concatenarea optimă a segmentelor de vorbire înregistrate.

sinteză

Sinteza vorbirii presupune o analiză a limbajului uman, în ceea ce privește fonemele , dar și prozodia, deoarece o propoziție poate avea semnificații diferite doar prin melodia propoziției.

În ceea ce privește procesul de sinteză în sine, există diferite metode. Ceea ce toate metodele au în comun este că folosesc o bază de date în care sunt stocate informații caracteristice despre segmentele de limbă. Elementele din acest inventar sunt legate de expresia dorită. Sistemele de sinteză a vorbirii pot fi clasificate pe baza inventarului bazei de date și în special a metodei de legare. Sinteza semnalului tinde să fie mai simplă cu cât baza de date este mai mare, deoarece conține deja elemente care sunt mai aproape de expresia dorită și este necesară o procesare mai mică a semnalului. Din același motiv, o sinteză de sunet mai naturală este de obicei posibilă cu o bază de date mare.

O dificultate în sinteză constă în îmbinarea elementelor de inventar. Deoarece acestea provin din enunțuri diferite, ele diferă, de asemenea, în volum, frecvență fundamentală și poziția formanților. La preprocesarea bazei de date sau la conectarea elementelor de inventar, aceste diferențe trebuie echilibrate cât mai bine posibil (normalizare) pentru a nu afecta calitatea sintezei.

Selectarea unității

Selecția unității oferă cea mai bună calitate, în special cu un domeniu restricționat . Sinteza utilizează o bază de date de limbă mare în care fiecare enunț înregistrat este segmentat în unele sau în toate următoarele unități:

Aceste segmente sunt stocate cu un director al unui număr de proprietăți acustice și fonetice, cum ar fi curba de frecvență fundamentală, durata sau vecinii.

Pentru sinteză, algoritmi speciali de căutare , arborii de decizie ponderate , sunt folosiți pentru a determina un număr de segmente cât mai mari posibil, care se apropie cât mai mult posibil de enunțul care trebuie sintetizat în ceea ce privește aceste proprietăți. Deoarece această serie este transmisă cu procesare redusă sau deloc a semnalului, naturalețea limbii vorbite este păstrată atât timp cât sunt necesare câteva puncte de concatenare.

Sinteza difonului

Experimentele efectuate la începutul secolului 21 au arătat că reproducerea corectă a tranzițiilor sonore este esențială pentru inteligibilitatea sintezei vorbirii. O bază de date cu aproximativ 2500 de intrări este utilizată pentru a stoca toate tranzițiile sonore. Intervalul de timp al părții staționare, centrul fonemului unui fonem, până la partea staționară a fonemului următor este stocat acolo. Pentru sinteză, informațiile sunt puse împreună ( concatenate ) în consecință .

Alte efecte de co- articulare , care contribuie mult la naturalețea vorbirii, pot fi luate în considerare prin intermediul unor baze de date mai extinse. Un exemplu este Hadifix , conținutul Ha lbsilben, Di phone și Suf fix e.

Generarea semnalului

Generarea semnalului reproduce segmentele dorite din baza de date cu curba de frecvență de bază specificată. Această expresie a curbei de frecvență fundamentale poate fi realizată în moduri diferite, în care următoarele metode diferă.

Modelul de filtru sursă

În sinteze care utilizează o separare sursă-filtru, se utilizează o sursă de semnal cu o formă de undă periodică. Lungimea perioadei lor este setată să se potrivească cu frecvența fundamentală a enunțului care urmează să fie sintetizat. În funcție de tipul de fonem, la această excitație se adaugă zgomot suplimentar. Filtrarea finală procesează spectrele caracteristice sunetului. Avantajul acestei clase de metode este controlul simplu al frecvenței de bază a sursei. Un dezavantaj rezultă din parametrii de filtrare stocați în baza de date, care sunt dificil de determinat din probele de vorbire. În funcție de tipul de filtru sau de viziunea de bază a vorbirii, se face distincția între următoarele proceduri:

Sinteza formantă

Sinteza formanților se bazează pe observația că, pentru a distinge vocalele, este suficient să se reproducă cu exactitate primii doi formanți . Fiecare formant este simulat de un bandpass , un filtru polarizant de ordinul 2, a cărui frecvență centrală și calitate sunt controlabile . Sinteza formanților poate fi implementată relativ ușor utilizând circuite electronice analogice.

Model acustic

Modelul acustic reproduce toate proprietățile de rezonanță ale tractului vocal folosind un filtru adecvat. În acest scop, tractul vocal este adesea privit într-un mod simplificat ca un tub cu secțiune transversală variabilă, modurile transversale fiind neglijate deoarece întinderea laterală a tractului vocal este mică. Modificările secțiunii transversale sunt aproximate în continuare prin salturi echidistante în secțiunea transversală. Un tip de filtru care este ales frecvent este filtrul cu lanț transversal , în care există o relație directă între secțiunea transversală și coeficientul de filtrare.

Aceste filtre sunt strâns legate de codarea predictivă liniară (LPC), care este utilizată și pentru sinteza vorbirii. LPC ia în considerare, de asemenea, toate proprietățile de rezonanță, dar nu există o relație directă între coeficientul de filtrare și forma secțiunii transversale a tractului vocal.

Sinteza articulatorie

Comparativ cu modelul acustic, sinteza articulatorie stabilește o relație între poziția articulatorilor și forma secțiunii transversale rezultate a tractului vocal. În plus față de filtrele cu lanț încrucișat discret în timp, soluțiile ecuației Horn în timp continuu, de la care semnalul de timp este obținut prin transformarea Fourier , sunt utilizate pentru a simula caracteristicile de rezonanță .

Suprapunere Adăugare

Pitch Synchronous Overlap Add, prescurtat în PSOLA, este o metodă de sinteză în care înregistrările semnalului de vorbire se află în baza de date. Dacă semnalele sunt periodice, acestea sunt furnizate cu informații despre frecvența de bază (pitch) și se marchează începutul fiecărei perioade. În timpul sintezei, aceste perioade sunt decupate cu un anumit mediu utilizând o funcție de fereastră și adăugate la semnalul care urmează să fie sintetizat la un punct adecvat: În funcție de frecvența fundamentală dorită este mai mare sau mai mică decât cea a intrării în baza de date, corespunzător mai dens sau mai puțin dens decât în ​​originalul pus împreună. Pentru a regla durata sunetului, perioadele pot fi omise sau scoase de două ori. Această metodă este, de asemenea, cunoscută sub numele de TD-PSOLA sau PSOLA-TD (TM), unde TD înseamnă Time Domain și subliniază faptul că metodele funcționează în domeniul time.

O dezvoltare ulterioară este procesul de adăugare a sintezei de bandă multiplă sau MBROLA pe scurt . Aici, segmentele din baza de date sunt preprocesate la o frecvență de bază uniformă și poziția de fază a armonicelor este normalizată. În timpul sintezei unei tranziții de la un segment la altul, apar interferențe mai puțin perceptibile și calitatea vorbirii atinse este mai mare.

Aceste metode de sinteză sunt legate de sinteza granulară , care este utilizată în generarea sunetului și înstrăinarea în producția de muzică electronică.

Sinteza parametrică a vorbirii din modele ascunse Markov (HMM) și / sau grafice Markov stocastice (SMG)

Sinteza parametrică a vorbirii este un grup de metode bazate pe modele stochastice. Aceste modele sunt fie modele Markov ascunse (HMM) , grafice Markov stochastice (SMG), fie, mai recent, o combinație a acestor două. Principiul de bază este că secvențele de foneme simbolice obținute din preprocesarea textului rulează prin modelare statistică, mai întâi descompunându-le în segmente și apoi atribuind un model specific dintr-o bază de date existentă fiecăruia dintre aceste segmente. La rândul lor, fiecare dintre aceste modele este descris de o serie de parametri și, în cele din urmă, este legat de celelalte modele. Prelucrarea la un semnal de vorbire artificial, care se bazează pe parametrii menționați, completează apoi sinteza. În cazul utilizării graficelor Markov mai flexibile, stocastice, un astfel de model poate fi chiar optimizat în măsura în care o anumită naturalețe de bază poate fi antrenată în prealabil și prin adăugarea de exemple de limbaj natural. Metodele statistice de acest tip provin din câmpul contrar al recunoașterii vorbirii și sunt motivate de cunoștințe despre legătura dintre probabilitatea unei anumite secvențe de cuvinte vorbite și viteza aproximativă de vorbire de așteptat sau prosodia sa.

Utilizări posibile ale software-ului text-to-speech

Utilizarea software-ului de sinteză a vorbirii nu trebuie să fie un scop în sine. Persoanele cu deficiențe de vedere - de ex. B. Cataractă sau degenerescență maculară legată de vârstă - utilizați soluții software TTS pentru a citi textele cu voce tare direct pe ecran. Persoanele nevăzătoare pot utiliza un computer folosind un software de citire a ecranului și li se spune despre elementele de control și conținutul textului. Dar lectorii folosesc și sinteza vorbirii pentru a înregistra prelegeri. Autorii folosesc, de asemenea, software-ul TTS pentru a verifica textele pe care le-au scris pentru erori și înțelegere.

Un alt domeniu de aplicare este sub forma unui software care permite crearea de fișiere MP3 . Aceasta înseamnă că software-ul de sinteză a vorbirii poate fi utilizat pentru a genera podcast-uri simple sau bloguri audio . Experiența a arătat că producția de podcasturi sau bloguri audio poate consuma mult timp.

Când lucrați cu software american, trebuie remarcat faptul că vocile disponibile sunt de calitate diferită. Vocile englezești sunt de o calitate superioară celei germane. O copie 1: 1 a textelor din software-ul TTS nu este recomandată; în orice caz este necesară postprocesarea. Nu este vorba doar de înlocuirea abrevierilor, ci și de introducerea semnelor de punctuație - chiar dacă sunt incorecte din punct de vedere gramatical - poate ajuta la influențarea ratei propoziției. „Traducerile” germane cu anglicisme sunt, în general, o problemă insurmontabilă pentru sinteza vorbirii.

Aplicațiile frecvente sunt anunțuri în sistemele de telefonie și de navigație.

Software de sinteză a vorbirii

Sinteza de vorbire Amiga SoftVoice
  • AnalogX SayIt
  • Aristech
  • Audiodizer
  • Balabolka (Freeware, 26 de limbi, SAPI4 și SAPI5 )
  • BOSS, dezvoltat la Institutul de Studii în Comunicare de la Universitatea din Bonn
  • Browsealoud din textHELP
  • Cepstral text-to-speech
  • CereProc
  • DeskBot
  • speak (open source, multe limbi, SAPI5)
  • festival
  • Festvox
  • FreeTTS (Open Source)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA text-to-speech
  • Cititor de voce Linguatec 15
  • Cititor de clipuri Logox
  • Loquendo TTS
  • MacinTalk și narrator.device de la SoftVoice
  • MARY Text-To-Speech dezvoltat de DFKI Language Technology Lab
  • MBROLA
  • Modulați software-ul de conversie vocală, folosește rețele de contracarare generative
  • Mozilla TTS
  • NaturalReader de la NaturalSoft
  • OnScreenVoices din software-ul tom weber
  • ReadSpeaker: Citirea site-urilor web și a podcasturilor
  • Vorbește din Nuance (fost ScanSoft), acum Kobaspeech 3
  • SAM de la Software-ul Don't Ask
  • SpeechConcept
  • Aparat de vorbire
  • SVOX
  • Sincronizați 2
  • Sinteza 3
  • SYNVO
  • Tacotron (Google)
  • Trimiteți text cu voce tare MP3
  • Toshiba ToSpeak
  • Robot TTS
  • sinteza vocală CANTOR virsyn
  • Vocea virtuală

Hardware pentru sinteza vorbirii

  • Votrax
    • SC-01A (formant analogic)
    • SC-02 / SSI-263 / "Arctic 263"
  • Procesor de vorbire cu instrumente generale
    • SP0250
    • SP0256-AL2 "Orator" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000
  • National Semiconductor DT1050 Digitalker (Mozer)
  • Silicon Systems SSI 263 (formant analogic)
  • Texas Instruments
  • Oki Semiconductor
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS Sintetizare vocală LSI

Vezi si

literatură

  • Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: De la text la limba vorbită. În: Henning Lobin , Lothar Lemnitzer (Ed.): Text Technologie. Perspective și aplicații. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , pp. 295-325.
  • Jessica Riskin: Wetware din secolul al XVIII-lea. În: Reprezentări. Vol. 83, nr. 1, 2003, ISSN  0734-6018 , pp. 97-125, doi : 10.1525 / rep.2003.83.1.97 .
  • James L. Flanagan: Analiza vorbirii, sinteza și percepția (= comunicare și cibernetică în reprezentări individuale. Vol. 3). Ediția a II-a. Springer, Berlin și colab. 1972, ISBN 3-540-05561-4 . Prima ediție 1965, ediția a 3-a 2008
  • Ville Pulkki, Matti Karjalainen : Comunicarea acustică: o introducere în vorbire, audio și psihoacustică. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .

Link-uri web

Wikționar: Sinteza vorbirii  - explicații ale semnificațiilor, originilor cuvintelor, sinonime, traduceri
Commons : Sinteza vorbirii  - colecție de imagini, videoclipuri și fișiere audio

istorie

Sisteme

Interfețe web

Note de subsol

  1. Istoricul Dennis Klatt de vorbire Sinteza ( memento al originalului din 04 iulie 2006 în Internet Archive ) Info: Arhiva link - ul a fost introdus în mod automat și nu a fost încă verificată. Vă rugăm să verificați linkul original și arhivă conform instrucțiunilor și apoi eliminați această notificare. @ 1@ 2Șablon: Webachiv / IABot / www.cs.indiana.edu
  2. Sami Lemmetty: Istoria și dezvoltarea sintezei vorbirii. În: Review of Speech Synthesis Technology. HELSINKI UNIVERSITY OF TECHNOLOGY, 1 iunie 1999, accesat la 14 martie 2019 .
  3. Arne Hoxbergen: Istoria sintezei vorbirii bazată pe câteva exemple selectate (PDF; 490 kB). Berlin 2005.
  4. Karl Schnell: modele de tuburi ale tractului de vorbire. Frankfurt 2003.
  5. http://www.patent-de.com/20010927/DE10040991C1.html
  6. Pagina nu mai este disponibilă , căutați în arhivele web: Diplomarbeit_Breitbuecher@ 1@ 2Șablon: Toter Link / www.ims.uni-stuttgart.de
  7. arhivării copie ( memento al originalului din 21 iulie 2014 , în Internet Arhiva ) Info: Arhiva link a fost introdus în mod automat și nu a fost încă verificată. Vă rugăm să verificați linkul original și arhivă conform instrucțiunilor și apoi eliminați această notificare. @ 1@ 2Șablon: Webachiv / IABot / www.ias.et.tu-dresden.de
  8. Modulați: deblocați vocea. Adus pe 14 martie 2019 .
  9. Tehnologie Review: Vorbi ca Barack Obama. 14 martie 2019, accesat pe 14 martie 2019 .
  10. mozilla / TTS. Mozilla, 7 februarie 2021, accesat 7 februarie 2021 .
  11. https://simulationcorner.net/index.php?page=sam
  12. Sebastian Grüner: Tacotron 2: Sinteza vorbirii Google aproape că atinge calitatea umană - Golem.de. În: golem.de. 21 decembrie 2017. Adus pe 14 martie 2019 .
  13. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  14. Cuprins (pdf)