Kuinka tekoäly voi tehdä tietokoneen puheesta luonnollisempaa

Tärkeimmät oppimispisteet

Yritykset kiirehtivät etsimään tapoja tehdä tietokoneella luodusta puheesta realistisempaa.
NVIDIA julkaisi äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä omalla äänelläsi.
Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, sanoo asiantuntija.

Tietokoneella tuotettu puhe saattaa pian kuulostaa paljon inhimillisemmältä. Tietokoneen osia valmistava NVIDIA julkisti äskettäin työkalut, jotka voivat tallentaa luonnollisen puheen äänen antamalla sinun harjoitella tekoälyä äänelläsi. Ohjelmisto voi myös välittää puhujan sanat toisen henkilön äänellä. Se on osa kasvavaa pyrkimystä tehdä tietokoneen puheesta realistisempaa. «Kehittynyt puheälyteknologia mahdollistaa käyttäjien puhumisen luonnollisesti yhdistäen monta kysymystä yhdeksi lauseeksi ja poistamalla tarpeen toistaa jatkuvasti alkuperäisen kysymyksen yksityiskohtia», sanoi Michael Zagorsek, puheentunnistusyrityksen SoundHoundin operatiivinen johtaja, Lifewirelle. sähköpostihaastattelu. «Useiden kielten lisääminen, jotka ovat nyt saatavilla useimmilla ääniälyalustoilla, tekee digitaalisista ääniavustajista käytettävissä useammilla maantieteellisillä alueilla ja väestöryhmissä», hän lisäsi.

Robospeech nousee

Amazonin Alexa ja Applen Siri kuulostavat paljon paremmalta kuin jopa kymmenen vuoden takainen tietokonepuhe, mutta niitä ei tule erehtyä piakkoin pitämään aidoista ihmisäänistä. Jotta keinotekoinen puhe kuulostaa luonnollisemmalta, NVIDIAn tekstistä puheeksi -tutkimusryhmä on kehittänyt RAD-TTS-mallin. Järjestelmän avulla ihmiset voivat oppia tekstistä puheeksi (TTS) -mallin äänellään, mukaan lukien tempo, tonaliteetti, sointi ja muut tekijät. Yritys käytti uutta malliaan rakentaakseen enemmän keskustelua kuulostavaa kerrontaa I Am AI -videosarjaansa. «Tämä käyttöliittymä antoi videotuottajamme tallentaa itsensä lukevan videon käsikirjoitusta ja sitten käyttää tekoälymallia muuntaakseen puheensa naispuolisen kertojan ääneksi. Käyttämällä tätä peruskerrontaa tuottaja saattoi sitten käyttää tekoälyä ääninäyttelijänä. ohjaaminen – syntetisoitu puhe, joka korostaa tiettyjä sanoja ja säädä selostuksen tahtia ilmaistakseen paremmin videon sävyä», NVIDIA kirjoitti verkkosivuillaan.

Vaikeampaa kuin miltä se kuulostaa

Asiantuntijoiden mukaan tietokoneella tuotetun puheen saaminen kuulostamaan luonnolliselta on hankala ongelma. «Sinun on nauhoitettava satoja tunteja jonkun ääntä, jotta siitä voidaan tehdä tietokoneversio», tekstistä puheeksi -ohjelmistoyrityksen Kukarellan toimitusjohtaja Nazim Ragimov kertoi Lifewirelle sähköpostihaastattelussa. «Ja tallennuksen tulee olla korkealaatuista, ammattistudiossa nauhoitettua. Mitä enemmän tuntia laadukasta puhetta ladataan ja käsitellään, sitä parempi lopputulos.» «Tekstistä puheeksi -ominaisuutta voidaan käyttää pelaamisessa, vammaisten auttamiseksi tai käyttäjien kääntämisessä kielten välillä omalla äänellään.» Intonaatio, tunteet ja musikaalisuus ovat ominaisuuksia, jotka tietokoneäänistä vielä puuttuvat, Ragimov sanoi. Jos tekoäly voi lisätä nämä puuttuvat linkit, tietokoneella tuotettu puhe on «erottamaton todellisten toimijoiden äänistä», hän lisäsi. «Se on työn alla. Muut äänet pystyvät kilpailemaan radiojuontajien kanssa. Pian näet ääniä, jotka voivat laulaa ja lukea äänikirjoja.» Puheteknologiasta on tulossa yhä suositumpi monilla yrityksillä. «Autoteollisuus on äskettäin ottanut puheälyn käyttöön keinona luoda turvallisempia ja yhdistetympiä ajokokemuksia», Zagorsek sanoi. «Sittemmin ääniavustajat ovat yleistyneet yhä enemmän, kun brändit etsivät tapoja parantaa asiakaskokemuksia ja vastata vaatimuksiin helpompien, turvallisempien, mukavampien, tehokkaampien ja hygieenisempien vuorovaikutusmenetelmien suhteen tuotteidensa ja palveluidensa kanssa.» Tyypillisesti puheäly muuntaa kysymykset vastauksiksi kaksivaiheisessa prosessissa, joka alkaa muuntamalla puhe tekstiksi automaattisen puheentunnistuksen (ASR) avulla ja syöttää sitten tekstin luonnollisen kielen ymmärtämisen (NLU) malliin.

SoundHoundin lähestymistapa yhdistää nämä kaksi vaihetta yhdeksi prosessiksi puheen seuraamiseksi reaaliajassa. Yhtiö väittää, että tämän tekniikan avulla puheavustajat voivat ymmärtää käyttäjän kysymysten merkityksen jo ennen kuin henkilö on lopettanut puhumisen. Tietokonepuheen tuleva kehitys, mukaan lukien erilaisten liitäntävaihtoehtojen saatavuus, pelkästä sulautetusta (ei vaadi pilviyhteyttä) hybridiin (sulautettu plus pilvi) ja vain pilvipalveluun «antaa eri alojen yrityksille enemmän valinnanvaraa kustannusten, yksityisyyden ja prosessointitehon saatavuus», Zagoresk sanoi. NVIDIA sanoi, että sen uutisten tekoälymallit menevät puheenvaihtotyötä pidemmälle. «Tekstistä puheeksi -ominaisuutta voidaan käyttää pelaamisessa, äänivammaisten ihmisten auttamiseksi tai käyttäjien auttamiseksi kääntämään kielten välillä omalla äänellään», yhtiö kirjoitti. «Se voi jopa jäljitellä ikonisten laulajien esityksiä ja sovittaa yhteen kappaleen melodian lisäksi myös laulun takana olevan tunneilmaisun kanssa.»

Kuinka tekoäly voi tehdä tietokoneen puheesta luonnollisempaa

PorMarkus

Tärkeimmät oppimispisteet

Robospeech nousee

Vaikeampaa kuin miltä se kuulostaa

Por Markus

Aiheeseen liittyvät merkinnät

Brickit on loistava opettavainen lelu, mutta puuttuuko siitä LEGOn pointti?

Kuinka uusissa Pixel Budsissa voisi olla 3D-ääntä

Kuinka uudet tekoälyllä toimivat älyrenkaat voivat auttaa muuttamaan liikennettä?

Olet menettänyt

Mikä on CHA-tiedosto?

Kuinka käyttää Excelin DATEVALUE-funktiota

Crunchyroll: mikä se on ja kuinka katsoa animea siinä

Tarkista Avira Rescue -järjestelmä