A BuzzFeed szerzőjének kísérletét egy korábbi cikke inspirálta, amelyet az álhírek jövőjéről írt Aviv Ovadya megszólaltatásával. Ebben a szakértő rémisztő képet festett le a jövőről, amelyben a technológia új szintre emelheti a valóság manipulálását. Néhány ízelítőt kaphattunk is már erről a közelmúltban, de ez csak a kezdet.
Egy ilyen bemutató a BuzzFeed mostani cikke is, amelyben a szerző, Charlie Warzel mesterséges intelligencia által generált hanggal vicceli meg azt a személyt, aki elvileg mindenkinél jobban ismeri a hangját – a saját édesanyját.
Kísérletéhez az újságíró a Lyrebird nevű, hangavatárokat készítő szoftvert használta, amely tetszőlegesen felvett hangminták alapján elemzi a felhasználó beszédstílusát, majd készít belőlük hangmásolatot. Ezután bármilyen szöveget bevihetünk a program szövegmezőjébe, amit aztán a Lyrebird a mi hangunkon szólaltat meg (technológiájukat a készítők ezzel a Donald Trump mesterséges hangmintával illusztrálták 2017 szeptemberében).
@realDonaldTrump https://t.co/a9qKmhwk5D pic.twitter.com/XJhbfFg8Eg
— Lyrebird AI (@LyrebirdAi) 2017. szeptember 4.
A körülbelül egyórás mintavétel után Warzel klónhangja még elég robotszerű volt, de aztán addig tömte a programot újabb és újabb mintákkal, míg végül olyanra nem csiszolta, ami egy telefonos beszélgetésben akár be is válhat. Persze a tökéletestől – mint azt a lenti mintából hallhatjátok – még ez is távol áll, de ha például a beszélgetés elején hivatkozunk rá, hogy egy olyan helyről telefonálunk, ahol gyenge a térerő, simán átmehet.
Tesztáldozatának az újságíró az édesanyját választotta, és be is gépelt előre néhány olyan mondatot, amit beszélgetéseik során használni szokott. (Ez az ismeret, jegyzem meg zárójelben, azért elég nagy előny a hideghívó csalókhoz képest, és jelenleg nincs is az a mesterséges intelligencia, ami ezt a tudást pótolni tudná.) Ezek alapján pedig meg is erősíttetett hangklónjával egy előre megbeszélt vacsorát az édesanyjával. (Újabb kérdés, hogy egy spontán vacsorameghívás vagy -lemondás esetén mindez mennyire lett volna elég.)
Azt Warzel is elismeri, hogy a Lyrebird még nem tökéletes, de gyorsan fejlődik. Ezért aztán a hasonló technológiák fejlesztőinek fel kell készülniük arra, hogy esetleg nem mindenki akarja majd arra használni megoldásukat, amire eredetileg szánták.
A kísérletben felhasznált hangminta fejlődését és a Follow This című Netflix-sorozat álhírek jövőjét bemutató trailerét itt nézhetitek meg.
Ha tetszett a cikk, csatlakozz te is az Urbanlegends.hu-t támogató közösséghez! Tudj meg többet itt!
A kamu hangok és beszédek (meg a videók) kiküszöbölése egyszerűen megoldható, ha erre komolyabb igény van.
Mégpedig a digitális fájlok elég nagyok ahhoz, hogy abban különböző digitális vízjeleket lehessen elhelyezni. Ez a beszéd esetében lehet egy olyan hangalakzat, amit az emberi fül nem hall, de egy számítógép mindjárt ki tud szúrni.
Alapesetben az ilyen MI hangkészítő programok a saját vízjelüket beletehetik a fájljukba. A vízjelbe pedig nemcsak azt lehetne beletenni, hogy az X programmal készült, hanem azt is, hogy ki, és mikor.
Ezt a módszert követve maguk a hangrögzítő programok is (pl. az iPhone felvevő programja) is készíthet egy saját vízjelet. Ami nemcsak a felvétel adatait tartalmazza (hol-mikor-ki), hanem egy, a fájl tartalmáról készült matematikai “ujjlenyomatot” is. Ez az ujjlenyomat meg csak akkor egyezik a fájllal, ha az nem lett módosítva, megvágva, stb…
A dolgot tovább is lehet venni (hiszen egy hamis felvétel hamis adatokkal is generálhat ujjlenyomatot), és magát az egész rendszert lehetne hitelesíteni. Pl. egy olyan független hitelesítő által készített eszköz, ami a hangfelvételt és az ujjlenyomatát mindjárt a felvétel pillanatában elküldi egy hitelesítő központba. Ott pedig garantálják (mi meg elhisszük), hogy senki nem nyúlt hozzá.
Ha egy ilyen rendszer felállt, akkor már csak azt a felvételt, képet, videót fogjuk valódinak elfogadni, ami hitelesen lesz benne ebben a rendszerben.
De persze még egy ennyire komplex rendszer sem tudna 100% védelmet nyújtani. Hiszen minden rendszer feltörhető, kijátszható. Még hackernek sem kell lenni. Elég csak ha előre készítünk egy hamis hangfelvételt mondjuk Trumpról, majd a beszéde közben a közelében lejátsszuk a hitelesített felvevőnek. Akkor a hang is, a helyszín is (GPS), és az időpont is stimmelni fog.
Másik buktatója, hogy a kormányok inkább abba az irányba mennek, hogy egy felvételről ne derüljön ki, hogy az nem valódi. Nekik nem érdekük egy ilyen komplex biztonsági rendszer.