En ny talegenerator basert på kunstig intelligens (KI) kan overbevisende gjenskape menneskelige stemmer ved hjelp av bare noen få sekunder med lyd. Dette melder Live Science.
Det store amerikanske teknologiselskapet Microsoft, grunnlagt av milliardæren Bill Gates, har utviklet en talegenerator med kunstig intelligens som tilsynelatende er så overbevisende at den ikke kan lanseres for offentligheten.
VALL-E 2 er en tekst-til-tale-generator (TTS) som hevdes å kunne gjengi stemmen til et menneske ved hjelp av noen få sekunder med lyd som datagrunnlag.
Microsoft-forskere sier at VALL-E 2 er i stand til å generere «nøyaktig, naturlig tale med nøyaktig samme stemme som den opprinnelige taleren, som kan sammenlignes med menneskelig ytelse». Med andre ord er den nye KI-stemmegeneratoren overbevisende nok til å kunne forveksles med en ekte person – i hvert fall ifølge skaperne selv.
For første gang oppnår den såkalt menneskelig paritet. Live Science skriver at menneskelig paritet i denne sammenhengen betyr at tale generert av VALL-E 2 matchet eller overgikk kvaliteten på menneskelig tale i referanser som ble brukt av Microsoft.
Forskerne brukte blant annet lydprøver fra talebibliotekene LibriSpeech og VCTK for å vurdere hvor godt resultatene samsvarte med opptak av menneskelige talere.
Forskerne påpeker at kvaliteten på VALL-E 2s resultater avhenger av lengden og kvaliteten på talemeldingene, samt faktorer som bakgrunnsstøy. Likevel antyder de at slik KI-taleteknologi kan få praktiske bruksområder i framtida.
«VALL-E 2 kan syntetisere tale som opprettholder høyttaleridentiteten og kan brukes til pedagogisk læring, underholdning, journalistikk, selvforfattet innhold, tilgjengelighetsfunksjoner, interaktive stemmesvarsystemer, oversettelse, chatbot og så videre».
Musikerforbundets leder om kunstig intelligens: «Det er tyveri»
Til tross for mulighetene, vil Microsoft ikke lansere VALL-E 2 for offentligheten på grunn av potensiell risiko for misbruk. Dette sammenfaller med økende bekymring rundt stemmekloning og deepfake-teknologi. Andre KI-selskaper som OpenAI har lagt lignende begrensninger på stemmeteknologien sin.
«VALL-E 2 er et rent forskningsprosjekt. For øyeblikket har vi ingen planer om å innlemme VALL-E 2 i et produkt eller utvide tilgangen til offentligheten», skriver forskerne i et innlegg.
Ny form for svindel: Kunstig intelligens kopierer din stemme
Man kan i teorien se for seg et scenario i framtida hvor noen gjenskaper din stemme ved hjelp av kunstig intelligens, og bruker denne til å skape falske telefonsamtaler til dine eldre slektninger for å svindle dem for penger. Kriminelle har allerede brukt KI-genererte stemmer til å svindle mennesker i USA.
Kjøp «Usikker vitenskap» av Steven E. Koonin som papirbok her og som ebok her!