GettyImages 1085717468 ae12009387ef4d94aff0414121c2dbe7

Tärkeimmät oppimispisteet

  • Päivä lähestyy kovaa vauhtia, jolloin et pysty erottamaan tietokoneella tuotettua puhetta aidosta.
  • Google julkisti äskettäin LaMDA-mallin, joka mahdollistaa luonnollisemman keskustelun.
  • Ihmisen kaltaisen puheen tuottaminen vaatii myös valtavia määriä prosessointitehoa.
Tällä hetkellä on helppo tunnistaa, kun puhut tietokoneelle, mutta tilanne voi muuttua nopeasti tekoälyn viimeaikaisen kehityksen ansiosta. Google julkaisi äskettäin LaMDA:n, kokeellisen mallin, jonka yritys väittää voivan lisätä keskusteluapulaistensa tehoa ja mahdollistaa luonnollisemmat keskustelut. LaMDA pyrkii lopulta puhumaan normaalisti melkein mistä tahansa ilman minkäänlaista aiempaa koulutusta. Se on yksi kasvava määrä tekoälyprojekteja, joissa saatat miettiä, puhutko ihmiselle. «Arvioni on, että seuraavien 12 kuukauden aikana käyttäjät altistuvat ja tottuvat näihin uusiin, tunteellisempiin ääniin», sanoi James Kaplan, tekoälyn virtuaalisen ääniavustajan ja hakukoneen MeetKain toimitusjohtaja. sähköpostihaastattelu. «Kun tämä tapahtuu, tämän päivän syntetisoitu puhe kuulostaa käyttäjille samalta kuin 2000-luvun alun puhe kuulostaa meille tänään.»

Ääniavustajat hahmoilla

Googlen LaMDA perustuu Transformeriin, Google Researchin kehittämään hermoverkkoarkkitehtuuriin. Toisin kuin muut kielimallit, Googlen LaMDA on koulutettu todelliseen dialogiin. Osa luonnolliselta kuulostavan tekoälypuheen luomisen haastetta on keskustelujen avoin luonne, Googlen Eli Collins kirjoitti blogikirjoituksessaan.

Humanoidirobotti puhuu ihmisryhmälle.

«Keskustelu ystävän kanssa tv-ohjelmasta voi muuttua keskusteluksi maasta, jossa ohjelma kuvattiin, ennen kuin syntyy keskustelua maan parhaista paikallisista ruuista», hän lisäsi. Asiat etenevät nopeasti robotin puheen avulla. Keskustelevaan tekoälyyn sijoittavan Tsingyuan Venturesin toimitusjohtaja Eric Rosenblum sanoi, että jotkut tietokoneavusteisen puheen perustavanlaatuisimmista ongelmista on käytännössä ratkaistu. Esimerkiksi puheen ymmärtämisen tarkkuus on jo erittäin korkea palveluissa, kuten Otter.ai-ohjelmistolla tehdyissä transkriptioissa tai DeepScriben luomissa lääketieteellisissä muistiinpanoissa. «Seuraava raja on kuitenkin paljon vaikeampi», hän lisäsi. «Ymmärryksen säilyttäminen kontekstista, luonnollisen kielen prosessoinnin ulkopuolella olevasta ongelmasta ja empatiasta, kuten ihmisten kanssa kommunikoivista tietokoneista, tarvitsee turhautumisen, vihan, kärsimättömyyden jne. ymmärtämistä. Molempia asioita käsitellään, mutta kumpikaan ei ole tyydyttävää. »

Neuroverkot ovat avainasemassa

Yritykset käyttävät todentuntuisten äänten tuottamiseen teknologiaa, kuten syviä hermoverkkoja, koneoppimisen muotoa, joka luokittelee tiedot kerroksittain, Matt Muldoon, tekstistä puheeksi -ohjelmistoa kehittävän ReadSpeaker-yhtiön Pohjois-Amerikan presidentti, sanoi sähköpostissa. .postihaastattelu. . «Nämä kerrokset tarkentavat signaalia ja lajittelevat sen monimutkaisempiin luokitteluihin», hän lisäsi. «Tuloksena on synteettistä puhetta, joka kuulostaa pelottavalta ihmiseltä.» Toinen kehitteillä oleva tekniikka on Prosody Transfer, joka yhdistää yhden tekstistä puheeksi -äänen äänen toisen puhetyyliin, Muldoon sanoi. Mukana on myös siirto-oppimista, mikä vähentää uuden neuronaalisen tekstistä puheeksi -äänen tuottamiseen tarvittavan harjoitusdatan määrää. Kaplan sanoi, että ihmisen kaltaisen puheen tuottaminen vaatii myös valtavia määriä prosessointitehoa. Yritykset kehittävät hermokiihdytinsiruja, mukautettuja moduuleja, jotka toimivat yhdessä tavallisten prosessorien kanssa. «Seuraava vaihe tässä on näiden sirujen sijoittaminen pienempiin laitteistoihin, kuten jo tehdään kameroissa, kun näkemiseen tarvitaan tekoäly», hän lisäsi. «Ei kestä kauan, kun tämän tyyppinen laskentaominaisuus on saatavilla itse kuulokkeissa.» Yksi haaste tekoälypohjaisen puheen kehittämisessä on se, että jokainen puhuu eri tavalla, mikä vaikeuttaa usein tietokoneiden ymmärtämistä. «Ajattele Georgiaa vs. Bostonia vastaan ​​Pohjois-Dakotan aksentteja ja sitä, onko englanti ensisijainen kielesi vai ei», Monica Dema, joka työskentelee puhehakuanalyysissä MDincissä, sanoi sähköpostissa. «Globaalisti ajateltuna tämän tekeminen on kallista kaikille Saksan, Kiinan ja Intian alueille, mutta se ei tarkoita, etteikö se voisi tai voisi.»

Por Markus