Tärkeimmät oppimispisteet
- Yritykset kiirehtivät etsimään tapoja tehdä tietokoneella luodusta puheesta realistisempaa.
- NVIDIA julkaisi äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä omalla äänelläsi.
- Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, sanoo asiantuntija.
Robospeech nousee
Amazonin Alexa ja Applen Siri kuulostavat paljon paremmalta kuin jopa kymmenen vuoden takainen tietokonepuhe, mutta niitä ei tule erehtyä piakkoin pitämään aidoista ihmisäänistä. Jotta keinotekoinen puhe kuulostaa luonnollisemmalta, NVIDIAn tekstistä puheeksi -tutkimusryhmä on kehittänyt RAD-TTS-mallin. Järjestelmän avulla ihmiset voivat oppia tekstistä puheeksi (TTS) -mallin äänellään, mukaan lukien tempo, tonaliteetti, sointi ja muut tekijät. Yritys käytti uutta malliaan rakentaakseen enemmän keskustelua kuulostavaa kerrontaa I Am AI -videosarjaansa. «Tämä käyttöliittymä antoi videotuottajamme tallentaa itsensä lukevan videon käsikirjoitusta ja sitten käyttää tekoälymallia muuntaakseen puheensa naispuolisen kertojan ääneksi. Käyttämällä tätä peruskerrontaa tuottaja saattoi sitten käyttää tekoälyä ääninäyttelijänä. ohjaaminen – syntetisoitu puhe, joka korostaa tiettyjä sanoja ja säädä selostuksen tahtia ilmaistakseen paremmin videon sävyä», NVIDIA kirjoitti verkkosivuillaan.
Vaikeampaa kuin miltä se kuulostaa
Asiantuntijoiden mukaan tietokoneella tuotetun puheen saaminen kuulostamaan luonnolliselta on hankala ongelma. «Sinun on nauhoitettava satoja tunteja jonkun ääntä, jotta siitä voidaan tehdä tietokoneversio», tekstistä puheeksi -ohjelmistoyrityksen Kukarellan toimitusjohtaja Nazim Ragimov kertoi Lifewirelle sähköpostihaastattelussa. «Ja tallennuksen tulee olla korkealaatuista, ammattistudiossa nauhoitettua. Mitä enemmän tuntia laadukasta puhetta ladataan ja käsitellään, sitä parempi lopputulos.» «Tekstistä puheeksi -ominaisuutta voidaan käyttää pelaamisessa, vammaisten auttamiseksi tai käyttäjien kääntämisessä kielten välillä omalla äänellään.» Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, Ragimov sanoi. Jos tekoäly voi lisätä nämä puuttuvat linkit, tietokoneella tuotettu puhe on «erottamaton todellisten toimijoiden äänistä», hän lisäsi. «Se on työn alla. Muut äänet pystyvät kilpailemaan radiojuontajien kanssa. Pian näet ääniä, jotka voivat laulaa ja lukea äänikirjoja.» Puheteknologiasta on tulossa yhä suositumpi monilla yrityksillä. «Autoteollisuus on äskettäin ottanut puheälyn käyttöön keinona luoda turvallisempia ja yhdistetympiä ajokokemuksia», Zagorsek sanoi. «Sittemmin ääniavustajat ovat yleistyneet yhä enemmän, kun brändit etsivät tapoja parantaa asiakaskokemuksia ja vastata vaatimuksiin helpompien, turvallisempien, mukavampien, tehokkaampien ja hygieenisempien vuorovaikutusmenetelmien suhteen tuotteidensa ja palveluidensa kanssa.» Tyypillisesti puheäly muuntaa kysymykset vastauksiksi kaksivaiheisessa prosessissa, joka alkaa muuntamalla puhe tekstiksi automaattisen puheentunnistuksen (ASR) avulla ja syöttää sitten tekstin luonnollisen kielen ymmärtämisen (NLU) malliin.