Osa artikkelin sisällöstä ei ole välttämättä saavutettavissa esimerkiksi ruudunlukuohjelmalla.
Ihmisen ääni on moniulotteinen kokonaisuus. Jokaisen puheella on oma sävy, oma sointi, oma rytmi ja oma tyyli. Puheen ääni sisältää tunteita, jotka ihminen tunnistaa yli kielirajojen. Samat sanat voi sanoa tavoilla, jotka luovat täysin eri merkityksiä. Puhe voi olla huutoa tai kuiskaamista, mutta korva onnistuu yksilöimään sen välittömästi.
Kaikki tämä tekee äänen manipuloinnista erittäin vaikeaa. Imitaattorit pystyvät jäljittelemään maneereja, mutta täydelliseen kopioon kohteensa äänestä he eivät pääse.
Tietokoneet ovat luoneet synteettistä puhetta jo vuosien ajan, mutta tähän asti mukana on ollut metallinen klangi. Jos äänestä on saatu metallimaisuus pois, se on hioutunut kulmista niin pyöreäksi, ettei se kuulosta ihmisen ääntämältä. Tietyn henkilön puheäänen imitointi tai manipulointi ei ole siis onnistunut koneelta uskottavasti. Kunnes nyt.
Koneoppimisen aikakaudella myös ääntä voidaan manipuloida ja uudelleentuottaa niin, ettei ihmiskorva sitä havaitse. Aikaisemmin näitä deepfake-väärennöksiä on tehtailtu kuvista ja videoista. Yle teki kaksi vuotta sitten deepfake-videon, jossa presidentti Sauli Niinistön uudenvuodenpuheesta luotiin väärennös.
Äänen manipulointi on yhä huomattavasti monimutkaisempaa kuin videon tai valokuvan manipulointi. Puhetta uudelleen tuottavat algoritmit eivät ole samalla tavalla kaikkien kokeiltavissa kuin deepfake-videosovellukset. Jos puheesta haluaa luoda syväväärennöksen, pitää ottaa yhteyttä asiaan vihkiytyneeseen yritykseen.
Halusimme selvittää, kuinka hyvälaatuista synteettistä puhetta pystytään tällä hetkellä tuottamaan. Otimme yhteyttä ukrainalaiseen tekoäly-yritys Respeecheriin, joka on aikaisemmin tehnyt yhteistyötä muun muassa amerikkalaisen teknologiayliopisto MIT:n ja jenkkifutisliiga NFL:n kanssa. Yhtiön teknologiaa on hyödynnetty myös Hollywood-elokuvissa ja televisiosarjoissa, mutta perustaja Oleksandr Serdiuk ei sen tarkemmin suostu paljastamaan nimiä.
Ääni menee laatikkoon, toinen tulee ulos
Jotta tekoäly saadaan puhumaan Jennin äänellä Rauman giältä, tarvitaan harjoitusdataa koneoppimismallin kouluttamiseen. Tässä tapauksessa harjoitusdata koostuu kahdesta tunnista mahdollisimman puhdasta puhetta ilman taustamelua. Yksi tunti Jennin puhetta ja toinen rauman murteen taitajan puhetta. Tähän rooliin saimme HesaÄijän eli Marios Kleovouloun.
Tekijänoikeusrikkomuksen välttääksemme lukumateriaalina oli Miguel de Cervantesin Don Quijote, joka oli tekijänoikeusvapaata lukemista jo ennen nykyistä tekijänoikeuslainsäädäntöä. Jenni ja Marios lukivat tunnin ajan muutamaa aukeamaa kirjasta hieman erilaisilla äänenpainoilla. Tämän lisäksi Marios luki rauman murteella kirjoitetun tekstin, jonka Respeecherin tekoälyn oli lopulta tarkoitus uudelleentuottaa Jennin äänellä.
Äänitiedostot lähetimme Ukrainaan, jossa Respeecher aloitti työnsä. Eli tarkalleen ottaen teki mitä?
– Se ei ole kovinkaan monimutkaista, sanoo Respeecherin Oleksandr Serdiuk ja kuvailee monimutkaisen prosessin, jossa neuroverkot luovat ääniaalloista lukuisia muuttujia sisältävän moniulotteisen visuaalisen esityksen, josta renderöidään uusi visuaalinen esitys, joka lopulta kuulostaa raumalaiselta Jenni Poikelukselta.
Eli yksi ääni menee mustaan laatikkoon ja toinen ääni tulee sieltä ulos?
– Se on itse asiassa juuri noin yksinkertaista, Serdiuk naurahtaa.
Jutun lopussa voit kuunnella, miltä lopputulos kuulostaa.
Lue miten neuroverkot toimivat: Neuroverkko katsoi kuvia julkkiksista ja alkoi luoda kasvoja, joita ei ole olemassa – Tunnustammeko koneen älyn vasta, kun se kykenee huijaamaan meitä?
"Piti vain ratkaista laatuongelma"
Respeecher sai alkunsa viisi vuotta sitten hackathon-tapahtumassa, jossa Serdiuk kumppaneineen rakensi yksinkertaisen äänenkloonaus-ohjelman. Ryhmän ohjelma voitti tapahtuman, mikä sai heidät miettimään, olisiko ohjelmasta liikeideaksi.
Haasteeksi nousi laatu. Synteettisen äänen tuottaminen laadulla, joka kelpaa elokuviin, sarjoihin ja peleihin, on erittäin vaikeaa.
– Totesimme, että se on teoreettisesti mahdollista, joten aloimme työskennellä sitä kohti. Pidimme mielessä koko ajan, että meidän pitää tuottaa hyvältä kuulostavaa, ääniteknikoille kelpaavaa synteettistä puhetta. Ei ollut väliä, kuinka kauan siinä menee. Jos mallien kouluttamiseen meni useita viikkoja, se oli ok. Jos kouluttaminen vaati paljon dataa, se oli ok. Piti vain ratkaista laatuongelma, Serdiuk kuvailee alkua.
Näihin aikoihin kiinnostus ääntä kohtaan oli kovaa teknologiapiireissä. Googlen omistama DeepMind-tekoälyfirma julkaisi WaveNet-mallinsa, joka pystyi tuottamaan tekstistä aikaisempaa inhimillisemmältä kuulostavaa puhetta. Photoshopin kehittänyt ohjelmistoyhtiö Adobe esitteli äänieditoinnin tulevaisuutta Adobe Voco- prototyyppiohjelmallaan.
Ääneen keskittyviä tekoäly-yrityksiä syntyi kuin sieniä sateella. Yksi niistä oli Respeecher, joka lopulta perustettiin vuonna 2018. Seuraavana vuonna yhtiö oli Serdiukin mukaan päässyt lähelle tavoiteltua äänenlaatua. Teknologian käytettävyys oli parantunut, mutta se oli yhä hyvin raskasta käyttää.
Äänen muuttaminen vaati tarkasti luettuja datasettejä, joiden tekemiseen saattoi kulua useita päiviä. Kun studiolaatuinen ääni saatiin koneoppimismallin pureskeltavaksi, koulutuksessa kesti jopa kuukausia.
– Vuosi sitten tarvitsimme kymmenen ottoa joka lauseesta, koska järjestelmä teki satunnaisia virheitä. Nyt onnistumme tekemään saman yhdestä lauseesta, Serdiuk kertoo.
– Ja mallin opettaminen on lyhentynyt kolmesta viikosta yhteen viikkoon.
Koska teknologia on ollut raskasta, sitä ovat voineet käyttää vain isot elokuvastudiot ja viihdeyhtiöt. Respeecherin tavoitteena on saada sama teknologia myös pienempien tekijöiden käyttöön.
Deepfake-Anthony suututti jo Bourdain-fanit
Synteettisen äänen kehitys mahdollistaa tulevaisuudessa monenlaisia käyttötapoja. Deepfake-äänillä voidaan lukea äänikirjoja ja nauhoittaa podcasteja. Inhimillisempi ääni parantaa tekoälyavustajien ymmärrettävyyttä.
Yritykset saattavat tulevaisuudessa luoda brändiään visuaalisen ilmaisun lisäksi omalla äänellä. Sama ääni, joka kuuluisi yrityksen mainoksissa, hoitaisi asiakaspalvelun ja opastaisi ihmisiä liikkeissä tai sovelluksissa.
Viihdeteollisuus puolestaan voisi deepfake-teknologian avulla paremmin lokalisoida tuotteitaan. Elokuvien dubbaus onnistuisi aivan uudella tavalla. Kun tähän yhdistetään perinteinen deepfake-teknologia, voisi Jasper Pääkkönen olla jokaisen Suomessa esitettävän Hollywood-elokuvan pääosassa tästä ikuisuuteen.
Markkinoilla on jo nyt useita yrityksiä, jotka tarjoavat julkkiksille mahdollisuuden kloonata oman äänensä ja lisensoida sitä eteenpäin miten haluavat. Nämä deepfake-äänet voivat lukea mainoksia tai antaa reittiohjeita navigaattorissa.
Tämä nostaa esille myös aivan uudenlaisia pulmia.
Kesällä nousi kohu, kun julkkiskokki Anthony Bourdainin elämästä kertovan dokumentin ohjannut Morgan Neville mainitsi ohimennen New Yorker -lehden haastattelussa, että elokuvassa jotkin Bourdainin ääneen lukemista teksteistä oli luotu tekoälyn avulla.
Dokumenttielokuvassa edesmennyt Bourdain toimi kertojaäänenä. Pääsääntöisesti puhe oli koostettu vanhoista tv-nauhoituksista, haastatteluista ja Bourdainin lukemista äänikirjoista. Kymmenien tuhansien tuntien seasta ei löytynyt sopivia repliikkejä kolmeen kohtaan, joten Neville palkkasi Respeecherin kaltaisen yhtiön (itse asiassa hän palkkasi aluksi niitä neljä) tuottamaan nuo repliikit neuroverkkojen avulla.
– Me voimme järjestää dokumentarismin etiikka -keskustelun aiheesta myöhemmin, Neville totesi haastattelussa.
Keskustelu kuitenkin käynnistyi välittömästi. Vallitseva mielipide oli, että deepfake-Bourdainin käyttö ei ollut hyväksyttyä. Perustelut vaihtelivat, mutta kaksi ongelmaa nousi keskustelussa keskiöön.
Ensimmäinen koski suostumusta. Kenellä on oikeus luovuttaa edesmenneen henkilön ääni manipuloitavaksi? Päätöstään puolustellessaan Neville kertoi, että deepfake-äänen käyttöön olisi saatu hyväksyntä Bourdainin lähipiiriltä. Bourdainin entinen vaimo Ottavia Busia kiisti tämän nopeasti.
Toinen ongelma oli deepfake-teknologian käytön salaaminen, etenkin kun kyseessä oli dokumenttielokuva. Elokuvassa ei ilmoiteta, mitkä kohdat on luotu neuroverkkojen avulla.
Teknologian henki ei pysy pullossa
Deepfake-väärennöksistä on puhuttu nyt muutaman vuoden ajan ja tietoisuus niiden olemassaolosta on kasvanut. Tämä on Serdiukin mielestä hyvä asia.
– Kun tämä teknologia päätyy vääriin käsiin, ei jos vaan kun, niin ihmisten pitää tietää tämänkaltaisten teknologioiden mahdolliset uhat, hän sanoo.
Serdiukin mukaan Respeecherilla on tiukat eettiset ohjeet sen suhteen, mitä sen teknologialla voidaan tehdä. Henki ei kuitenkaan tule pysymään ikuisesti pullossa. Siksi ihmisten on hyvä oppia tietynlainen skeptisyys kaikkeen näkemäänsä ja kuulemaansa.
Tällä on kuitenkin kääntöpuolensa. Sitä kutsutaan valehtelijan osingoksi (vai valehtelijan osuudeksi, eng. liars dividend).
Tästä on jo saatu viitteitä.
Syksyllä 2016, vain kuukausi ennen presidentinvaaleja, Yhdysvalloissa tuli julki ääninauha, jolla republikaanien presidenttiehdokas Donald Trump puhui halventavasti ja vähätellen naisten ahdistelusta. Trump pahoitteli nopeasti puheitaan. Hän kuvaile keskustelun pukuhuonepuheeksi, mutta myönsi sen olevan väärin.
Kolme kuukautta myöhemmin ääni oli muuttunut presidentiksi valitun Trumpin kellossa. Nyt Trump kiisti koskaan sanoneensa nauhalla kuultuja sanoja.
– Emme usko, että se oli minun ääneni, Trumpin kerrotaan sanoneen senaattoreille.
Syväväärennösten aikakaudella kuka tietää. Ehkä Poikeluskin on oikeasti kotoisin Raumalta.
Kuuntele myös:
Takaisin Pasilaan -podcast: Näin kaappasimme YleX:n Jenspan äänen – Voiko kuka tahansa tehdä samoin?