Stanje glasovnega prepoznavanja glasu

by Gary Newell

Uvod

Veliko časa preživljam z raziskovanjem člankov in pogosto razmišljam o temi članka, medtem ko hodim do železniške postaje ali ko gre zunaj in na splošno.

En večer, medtem ko sem hodil 1,5 km do postaje od mojega dela, sem mislil, "ali bi bilo dobro, če bi lahko zapisal, kar sem želel povedati, in nato samodejno prepisati v besedilno datoteko, ki jo lahko uredim in kasneje oblikujem" .

Precej dolgih ur sem preživel v pogledu na različne možnosti, ki so na voljo za prepoznavanje glasu in narekovanje, vključno s snemanjem neposredno prek mikrofona z uporabo programske opreme za diktiranje v Linuxu, snemanjem datoteke v format MP3 ali WAV in pretvorbo prek ukazne vrstice, pa tudi s pomočjo Chroma in aplikacije Android.

Ta članek izpostavlja moje ugotovitve po dnevih težkega dela.

Možnosti za Linux

Poskušanje najti programsko opremo za diktiranje in prepoznavanje govora v Linuxu ni tako enostavno, kot bi bilo mogoče, in razpoložljive možnosti niso tako pametne.

Na tej strani je seznam potencialnih možnosti, vključno s CMU Sphinx, Julius in Simon.

Uporabljam SparkyLinux, ki temelji na testiranju Debian in vam lahko povem, da je edini paket za prepoznavanje glasu, ki je na voljo v odlagališčih, Sphinx.

Lokalni programi Linux, na katere sem končal, so bili PocketSphinx, s katerim sem pretvoril WAV datoteke v besedilo in Freespeech-VR, ki je aplikacija python, ki omogoča neposredno snemanje iz mikrofona.

Poskušal sem tudi nekaj aplikacij za Chrome, vključno z VoiceNote II in Dictanote.

Na koncu sem poskušal uporabljati programe za diktiranje in e-pošto ter diktaturo za Talk in Talk.

Freespeech-VR

Freespeech-VR ni na voljo v standardnih odlagališčih. Od tod prenesem datoteke.

Po prenosu in izvlečenju vsebine zip datoteke sem odprla terminal in se pomaknila v mapo, kjer so bile datoteke izpisane.

Vnesel sem naslednji ukaz, da odprete freespeech-vr.

sudo python freespeech-vr

Imam dva slušalka s precej dostojnim mikrofonom in precej jasnim južnim angleškim naglasom.

V oknu freespeech-vr se je pojavilo naslednje besedilo:

Dobrodošli na enote pse izidov Danes so zagotovili, kako upravljane teste moram preskusiti, ko v besedilo Uporabi sistemski način Govor I Vsakemu je bilo samo v a, da bi upali, da ostanejo, in da je sredstvo ene piščance zlato kot sistem Ea, ko je moje ime naslednja telefonska številka pokliče telefonsko datoteko. Ta datoteka. Kmalu je na voljo telefonski odzivnik v telefonski predal. Sfinga. Going To ni telefon. Skupna raba. Izobraženi in orodja. Uporaba govora Ko končaš. zgodba A In z uporabo, ki ga je, ko je zelo, kako uspeh Ta Linux je bil, kot se izogibate

Zdaj bi rad zdaj povedal, da to ni spletna stran Unit Of Dogs in v nobenem trenutku nisem omenil ničesar s Zlati piščanci. Pravzaprav sem poskušal opisati postopek uporabe programske opreme za prepoznavanje govora.

Programsko opremo sem poskusil nekajkrat, vključno z različnimi hitrostmi in hitrostjo, toda natančnost je bila slaba.

PocketSphinx

PocketSphinx lahko sprejme WAV datoteko in jo pretvori v besedilo z ukazno vrstico.

PocketSphinx je na voljo prek repozitorijev Debian in mora biti na voljo za večino distribucij.

Glavna težava, ki sem jo našel s PocketSphinxom, je, da praktično potrebujete diplomo v konceptih prepoznavanja govora, jezikovnih datotek, slovarjev in načina usposabljanja sistema.

Po namestitvi PocketSphinx bi morali iti na spletno mesto CMU Sphinx in prebrati čim več informacij. Prav tako morate prenesti naslednjo datoteko modela.

Model ameriškega generičnega jezika

(Če niste angleški govornik, izberite jezikovni model, ki vam ustreza).

Dokumentacijo za PocketSphinx in Sphinx na splošno je težko razumeti za laično osebo, vendar iz tisto, kar sem lahko naredil iz slovarskih datotek, se uporabljajo za zagotavljanje seznama možnih besed in jezikovnih modelov imajo seznam potencialnih izgovorjav.

Za testiranje PocketSphinx sem uporabil posnetek mojega glasu, odrezek Al Pacina v "The Devils Advocate" in delček iz "Morgan Freeman". Bistvo tega je bilo poskusiti različne glasove in za mene ni nikogar, ki bi lahko pripovedoval zgodbo tako jasno kot Morgan Freeman in nihče ne bo dal črte, kot je Al Pacino.

Za delo PocketSphinx potrebuje datoteko WAV in mora biti v določeni obliki. Če je datoteka v formatu MP3, uporabite ukaz ffmpeg za pretvorbo v format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Če želite zagnati PocketSphinx, uporabite ta ukaz:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-sl-us.lm 2> glas2.log

pocketsphinx_continuous sprejme datoteko WAV in jo pretvori v besedilo.

V zgornjem ukazu pocketsphinx je povedal, da uporabite slovnično datoteko z imenom "cmusphinx-5.0-en-us.lm" z imenom "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic". Datoteka, ki se pretvori v besedilo, se imenuje voice2.wav (to je posnetek, ki sem ga naredil z glasom). Nazadnje 2> vstavi celoten izhodni izhod, ki ga ne potrebujete nujno v datoteki z imenom voice2.log. Dejanski rezultati preskusa so prikazani v oknu terminala.

Rezultati z glasom so naslednji:

dobrodošli na naslednji približno dobro v tem tednu ne glede na katero programsko opremo za prepoznavanje v minuti

Rezultati niso tako grozljivi kot pri freespeech-vr, vendar še vedno niso resnično uporabni. Nato sem poskusil uporabljati PocketSphinx z Al Pacino, vendar to sploh ni rezultatov.

Končno sem poskušal uporabiti glas Morgan Freeman iz filma "Bruce Almighty" in tukaj so rezultati:

000000000: na njo bomo
000000001: vsi so težki da dan, da je prav zdaj, da je to največ, da smo živi, delam vroče
000000002: v dvigalu, ki je ključnega pomena iz koščke baseball o'clock ali veš, kaj naj v življenju
000000003: kakšne so tiste, ki bodo okrevale
000000004: niso napisali
000000005: imaš na meni takoj
000000006: morate biti pravila
000000007: pričakoval sem te
000000008: in tu se je naučil, da je bila ilustracija, da je bila božična stranka morilca
000000009: izkaže se eden od načinov za pisanje o. rit sem mislil, da malo jih vedno nosi
000000010: kot problem, ki ga združuje, ne bo dobil dobrega, ker sem jih ocenil v tistem trenutku, ko nismo mislili, da sem na svetu, domov in sem videl to
000000011: oče, ki ga ima
000000012: kaj veliko o tem
000000013: Ali to daje
000000014: vse tiste, ki ne padejo veliko
000000015: desno v jeseni
000000016: dobro se drži za mene
000000017: to je nesrečno, če tudi mislim, da bodo imeli, da se bo to vse, kar se je poročilo, ne bi bilo, mi je všeč, za razliko od načina

Moj test se težko šteje za znanstveno in razvijalci PocketSphinx lahko navedejo, da ne uporabljam programske opreme pravilno. Obstaja tudi tehnika, imenovana glasovno usposabljanje, ki se lahko uporablja za ustvarjanje boljših slovarjev in jezikovnih datotek.

Moje prevladujoče mnenje je, da je za običajno vsakodnevno uporabo preveč težavno.

VoiceNote II

VoiceNote II je aplikacija Chrome, ki uporablja API za prepoznavanje Google Voice.

Če uporabljate brskalnike Chrome ali Chromium, lahko namestite VoiceNote II prek spletne trgovine .

Ikone na VoiceNote II so postavljene čudno, saj morate nastaviti jezik na dnu okna in gumb za urejanje je tudi na dnu, vendar je gumb za snemanje v zgornjem desnem položaju.

Prva stvar, ki jo morate storiti, je izbrati jezik, kar lahko dosežete s klikom na ikono sveta.

Za začetek snemanja kliknite ikono mikrofona in začnite govoriti v svojem mikrofonu. Za najboljše rezultate sem ugotovil, da je govor počasi ključen, da bi imela programska oprema možnost, da sledijo.

Rezultati niso bili dobri, kot je razvidno spodaj:

Pozdravljeni in dobrodošli, da se povežete. About.com todays članki o glasu do konverzije besedila dunelm farrell recesija 2008 kot konverzije in je dejal, da je dobro podprta najboljši način, da sem našel glasovni tekst addon, da se prikaže 2014debian ali rpm paket odprejo glasovni tip v govor, da besedilo odprete, če želite izbrati proti izbrali v Edinburghu francoskem nemščini, da ste dobili čas v Združenem kraljestvu na morju, mikrofon, ko ste končali pisanje svojega besedila kot besedilno datoteko, da bi to uspelo, to je zelo standarden angleški naglas iz južne Azije najboljše za to, ampak grem v textvia to torrentalong z dejanskim dokumentom in si lahko ogledate za napake, ki vas naredijo za poslušanje prijateljev

Dictanote

Dictanote je še ena aplikacija za Chrome, ki se lahko uporablja za diktiranje in se je pojavila kot bolj intuitivna, vendar rezultati niso bili boljši od VoiceNote II.

Uporabil sem samo demo verzijo Dictanote, ki vam preprečuje ustvarjanje novih dokumentov, vendar vam omogoča, da se pogovorite nad besedilom, ki je že v urejevalniku. Lahko sem preizkusil prepoznavanje glasu, vendar rezultati niso bili boljši od VoiceNote II in zato se nisem prijavil za pro verzijo.

Diktiranje in pošta

"Diktiranje in pošta" je aplikacija za Android, ki uporablja API za prepoznavanje glasu Google.

Rezultati "Diktacije in pošte" so bili veliko boljši od kateregakoli drugega programa, ki je bil poskušan do te točke.

Pozdravljeni na Linuxu., danes govorimo o pretvarjanju zvoka v besedilo

Trik z "Diktati in pošta" je govoriti počasi in izgovarjati, kot tudi z enakim poudarkom.

Po zaključku pogovora lahko rezultate pošljete sami sebi.

Diktatura za pogovor in pogovor

Druga aplikacija za Android, ki sem jo poskušala, je bila "Talk Talk Talk Dictation".

Vmesnik za to aplikacijo je bil najboljši od kupa in prepoznavanje govora je zelo dobro delovalo. Po snemanju narekovanja sem lahko rezultate razdelil na različne načine, tudi po elektronski pošti.

Dobrodošli na linux about.com danes govorimo o pretvarjanju govora v besedilo

Kot vidite, je zgornje besedilo približno tako jasno, kot ga lahko pričakujete. Pogovor je počasi ključ.

Povzetek

Native Linux ima nekaj načina, kar zadeva prepoznavanje glasu in posebej narekovanje. Obstajajo nekatere aplikacije, ki uporabljajo API za Google Voice, vendar še niso na seznamu v skladiščih.

Aplikacije ChromeOS so nekoliko boljše, daleč najboljši rezultati so bili doseženi z uporabo telefona Android. Mogoče ima telefon boljši mikrofon, zato ima programska oprema za prepoznavanje govora večjo možnost konverzije.

Če želite prepoznati glas, da postane resnično uporaben, mora biti bolj intuitiven z manj nastavitvami. Ne bi se smeli zapletati z jezikovnimi modeli in slovarji, da bi bili razumljivi.

Kljub temu cenim, da je celotna umetnost prepoznavanja govora zelo zahtevna, ker imajo vsi drugačen glas in v eni državi obstaja toliko narečij iz regije v regijo, ne glede na stotine jezikov, ki se uporabljajo po vsem svetu.

Moja analiza je torej, da programska oprema za prepoznavanje govora še vedno poteka.