cowomen 8M6KCnMvLus unsplash ab0f3325523c4940a569655edab076f5 scaled

Tärkeimmät oppimispisteet

  • Yritykset kiirehtivät etsimään tapoja tehdä tietokoneella luodusta puheesta realistisempaa.
  • NVIDIA julkaisi äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä omalla äänelläsi.
  • Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, sanoo asiantuntija.
Tietokoneella tuotettu puhe saattaa pian kuulostaa paljon inhimillisemmältä. Tietokoneen osia valmistava NVIDIA julkisti äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä äänelläsi. Ohjelmisto voi myös välittää puhujan sanat toisen henkilön äänellä. Se on osa kasvavaa pyrkimystä tehdä tietokoneen puheesta realistisempaa. «Kehittynyt puheälyteknologia mahdollistaa käyttäjien puhumisen luonnollisesti yhdistäen monta kysymystä yhdeksi lauseeksi ja poistamalla tarpeen toistaa jatkuvasti alkuperäisen kysymyksen yksityiskohtia», sanoi Michael Zagorsek, puheentunnistusyrityksen SoundHoundin operatiivinen johtaja, Lifewirelle. sähköpostihaastattelu. «Useiden kielten lisääminen, jotka ovat nyt saatavilla useimmilla ääniälyalustoilla, tekee digitaalisista ääniavustajista käytettävissä useammilla maantieteellisillä alueilla ja väestöryhmissä», hän lisäsi.

Robospeech nousee

Amazonin Alexa ja Applen Siri kuulostavat paljon paremmalta kuin jopa kymmenen vuoden takainen tietokonepuhe, mutta niitä ei tule erehtyä piakkoin pitämään aidoista ihmisäänistä. Jotta keinotekoinen puhe kuulostaa luonnollisemmalta, NVIDIAn tekstistä puheeksi -tutkimusryhmä on kehittänyt RAD-TTS-mallin. Järjestelmän avulla ihmiset voivat oppia tekstistä puheeksi (TTS) -mallin äänellään, mukaan lukien tempo, tonaliteetti, sointi ja muut tekijät. Yritys käytti uutta malliaan rakentaakseen enemmän keskustelua kuulostavaa kerrontaa I Am AI -videosarjaansa. «Tämä käyttöliittymä antoi videotuottajamme tallentaa itsensä lukevan videon käsikirjoitusta ja sitten käyttää tekoälymallia muuntaakseen puheensa naispuolisen kertojan ääneksi. Käyttämällä tätä peruskerrontaa tuottaja saattoi sitten käyttää tekoälyä ääninäyttelijänä. ohjaaminen – syntetisoitu puhe, joka korostaa tiettyjä sanoja ja säädä selostuksen tahtia ilmaistakseen paremmin videon sävyä», NVIDIA kirjoitti verkkosivuillaan.

Vaikeampaa kuin miltä se kuulostaa

Asiantuntijoiden mukaan tietokoneella tuotetun puheen saaminen kuulostamaan luonnolliselta on hankala ongelma. «Sinun on nauhoitettava satoja tunteja jonkun ääntä, jotta siitä voidaan tehdä tietokoneversio», tekstistä puheeksi -ohjelmistoyrityksen Kukarellan toimitusjohtaja Nazim Ragimov kertoi Lifewirelle sähköpostihaastattelussa. «Ja tallennuksen tulee olla korkealaatuista, ammattistudiossa nauhoitettua. Mitä enemmän tuntia laadukasta puhetta ladataan ja käsitellään, sitä parempi lopputulos.» «Tekstistä puheeksi -ominaisuutta voidaan käyttää pelaamisessa, vammaisten auttamiseksi tai käyttäjien kääntämisessä kielten välillä omalla äänellään.» Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, Ragimov sanoi. Jos tekoäly voi lisätä nämä puuttuvat linkit, tietokoneella tuotettu puhe on «erottamaton todellisten toimijoiden äänistä», hän lisäsi. «Se on työn alla. Muut äänet pystyvät kilpailemaan radiojuontajien kanssa. Pian näet ääniä, jotka voivat laulaa ja lukea äänikirjoja.» Puheteknologiasta on tulossa yhä suositumpi monilla yrityksillä. «Autoteollisuus on äskettäin ottanut puheälyn käyttöön keinona luoda turvallisempia ja yhdistetympiä ajokokemuksia», Zagorsek sanoi. «Sittemmin ääniavustajat ovat yleistyneet yhä enemmän, kun brändit etsivät tapoja parantaa asiakaskokemuksia ja vastata vaatimuksiin helpompien, turvallisempien, mukavampien, tehokkaampien ja hygieenisempien vuorovaikutusmenetelmien suhteen tuotteidensa ja palveluidensa kanssa.» Tyypillisesti puheäly muuntaa kysymykset vastauksiksi kaksivaiheisessa prosessissa, joka alkaa muuntamalla puhe tekstiksi automaattisen puheentunnistuksen (ASR) avulla ja syöttää sitten tekstin luonnollisen kielen ymmärtämisen (NLU) malliin.

Joku, joka tallentaa ääntä kotistudiossa.

SoundHoundin lähestymistapa yhdistää nämä kaksi vaihetta yhdeksi prosessiksi puheen seuraamiseksi reaaliajassa. Yhtiö väittää, että tämän tekniikan avulla puheavustajat voivat ymmärtää käyttäjän kysymysten merkityksen jo ennen kuin henkilö on lopettanut puhumisen. Tietokonepuheen tuleva kehitys, mukaan lukien erilaisten liitäntävaihtoehtojen saatavuus, pelkästä sulautetusta (ei vaadi pilviyhteyttä) hybridiin (sulautettu plus pilvi) ja vain pilvipalveluun «antaa eri alojen yrityksille enemmän valinnanvaraa kustannusten, yksityisyyden ja prosessointitehon saatavuus», Zagoresk sanoi. NVIDIA sanoi, että sen uutisten tekoälymallit menevät puheenvaihtotyötä pidemmälle. «Tekstistä puheeksi -ominaisuutta voidaan käyttää pelaamisessa, äänivammaisten ihmisten auttamiseksi tai käyttäjien auttamiseksi kääntämään kielten välillä ​omalla äänellään», yhtiö kirjoitti. «Se voi jopa jäljitellä ikonisten laulajien esityksiä ja sovittaa yhteen kappaleen melodian lisäksi myös laulun takana olevan tunneilmaisun kanssa.»

Por Markus