Tärkeimmät oppimispisteet
- Päivä lähestyy kovaa vauhtia, jolloin et pysty erottamaan tietokoneella tuotettua puhetta aidosta.
- Google julkisti äskettäin LaMDA-mallin, joka mahdollistaa luonnollisemman keskustelun.
- Ihmisen kaltaisen puheen tuottaminen vaatii myös valtavia määriä prosessointitehoa.
Ääniavustajat hahmoilla
Googlen LaMDA perustuu Transformeriin, Google Researchin kehittämään hermoverkkoarkkitehtuuriin. Toisin kuin muut kielimallit, Googlen LaMDA on koulutettu todelliseen dialogiin. Osa luonnolliselta kuulostavan tekoälypuheen luomisen haastetta on keskustelujen avoin luonne, Googlen Eli Collins kirjoitti blogikirjoituksessaan.
Neuroverkot ovat avainasemassa
Yritykset käyttävät todentuntuisten äänten tuottamiseen teknologiaa, kuten syviä hermoverkkoja, koneoppimisen muotoa, joka luokittelee tiedot kerroksittain, Matt Muldoon, tekstistä puheeksi -ohjelmistoa kehittävän ReadSpeaker-yhtiön Pohjois-Amerikan presidentti, sanoi sähköpostissa. .postihaastattelu. . «Nämä kerrokset tarkentavat signaalia ja lajittelevat sen monimutkaisempiin luokitteluihin», hän lisäsi. «Tuloksena on synteettistä puhetta, joka kuulostaa pelottavalta ihmiseltä.» Toinen kehitteillä oleva tekniikka on Prosody Transfer, joka yhdistää yhden tekstistä puheeksi -äänen äänen toisen puhetyyliin, Muldoon sanoi. Mukana on myös siirto-oppimista, mikä vähentää uuden neuronaalisen tekstistä puheeksi -äänen tuottamiseen tarvittavan harjoitusdatan määrää. Kaplan sanoi, että ihmisen kaltaisen puheen tuottaminen vaatii myös valtavia määriä prosessointitehoa. Yritykset kehittävät hermokiihdytinsiruja, mukautettuja moduuleja, jotka toimivat yhdessä tavallisten prosessorien kanssa. «Seuraava vaihe tässä on näiden sirujen sijoittaminen pienempiin laitteistoihin, kuten jo tehdään kameroissa, kun näkemiseen tarvitaan tekoäly», hän lisäsi. «Ei kestä kauan, kun tämän tyyppinen laskentaominaisuus on saatavilla itse kuulokkeissa.» Yksi haaste tekoälypohjaisen puheen kehittämisessä on se, että jokainen puhuu eri tavalla, mikä vaikeuttaa usein tietokoneiden ymmärtämistä. «Ajattele Georgiaa vs. Bostonia vastaan Pohjois-Dakotan aksentteja ja sitä, onko englanti ensisijainen kielesi vai ei», Monica Dema, joka työskentelee puhehakuanalyysissä MDincissä, sanoi sähköpostissa. «Globaalisti ajateltuna tämän tekeminen on kallista kaikille Saksan, Kiinan ja Intian alueille, mutta se ei tarkoita, etteikö se voisi tai voisi.»