Vad är deepfakes? AI som bedrar

Deepfakes är media - ofta video men ibland ljud - som skapades, ändrades eller syntetiserades med hjälp av djupinlärning för att lura vissa tittare eller lyssnare att tro en falsk händelse eller falskt meddelande.

Det ursprungliga exemplet på en deepfake (av reddit-användare / u / deepfake) bytte en skådespelers ansikte på kroppen av en porrartist i en video - vilket naturligtvis var helt oetiskt, men inte initialt olagligt. Andra djupa förfalskningar har förändrat vad kända människor sa eller språket de talade.

Deepfakes utökar idén om att komponera video (eller film), vilket har gjorts i årtionden. Betydande videokunskaper, tid och utrustning går till videokompositionering; video deepfakes kräver mycket mindre skicklighet, tid (förutsatt att du har GPU: er) och utrustning, även om de ofta inte övertygar för noggranna observatörer.

Hur man skapar deepfakes

Ursprungligen förlitar sig deepfakes på autokodare, en typ av övervakat neuralt nätverk, och många gör det fortfarande. Vissa människor har förfinat den tekniken med hjälp av GAN (generativa kontroversiella nätverk). Andra maskininlärningsmetoder har också använts för deepfakes, ibland i kombination med icke-maskininlärningsmetoder, med varierande resultat.

Autokodare

I huvudsak kör autokodare för djupa falska ansikten i bilder en tvåstegsprocess. Steg ett är att använda ett neuralt nätverk för att extrahera ett ansikte från en källbild och koda det till en uppsättning funktioner och eventuellt en mask, vanligtvis med flera 2D-fällningsskikt, ett par täta lager och ett softmax-lager. Steg två är att använda ett annat neuralt nätverk för att avkoda funktionerna, uppskalera det genererade ansiktet, rotera och skala ansiktet efter behov och applicera det uppskalade ansiktet på en annan bild.

Att utbilda en autokodare för djupfalsad ansiktsgenerering kräver många bilder av källans och målansikten från flera synvinklar och under olika ljusförhållanden. Utan en GPU kan träning ta veckor. Med GPU: er går det mycket snabbare.

GAN

Generativa kontroversiella nätverk kan förfina resultaten av autokodare, till exempel genom att sätta två neurala nätverk mot varandra. Det generativa nätverket försöker skapa exempel som har samma statistik som originalet, medan det diskriminerande nätverket försöker upptäcka avvikelser från den ursprungliga datadistributionen.

Träning av GAN är en tidskrävande iterativ teknik som avsevärt ökar kostnaden i beräkningstid jämfört med autokodare. För närvarande är GAN mer lämpliga för att skapa realistiska enbildsramar av imaginära människor (t.ex. StyleGAN) än för att skapa djupa falska videor. Det kan förändras när djupinlärningshårdvaran blir snabbare.

Hur man upptäcker deepfakes

I början av 2020 byggde ett konsortium från AWS, Facebook, Microsoft, partnerskapet om AI: s styrkommitté för mediaintegritet och akademiker Deepfake Detection Challenge (DFDC), som kördes på Kaggle i fyra månader.

Tävlingen omfattade två väldokumenterade prototyplösningar: en introduktion och ett startpaket. Den vinnande lösningen, av Selim Seferbekov, har också en ganska bra skrivning.

Detaljerna i lösningarna får dina ögon att korsa om du inte gillar djupa neurala nätverk och bildbehandling. I huvudsak gjorde den vinnande lösningen ansiktsdetektering ram för ram och extraherade SSIM-indexmasker (Structural Similarity). Programvaran extraherade de upptäckta ansikten plus en marginal på 30 procent och använde EfficientNet B7 förtränad på ImageNet för kodning (klassificering). Lösningen är nu öppen källkod.

Tyvärr kunde till och med den vinnande lösningen bara fånga ungefär två tredjedelar av deepfakesna i DFDC-testdatabasen.

Deepfake skapande och upptäckt applikationer

En av de bästa applikationerna för skapande av djupfake för öppen källkod är för närvarande Faceswap, som bygger på den ursprungliga deepfake-algoritmen. Det tog Ars Technica-författaren Tim Lee två veckor, med Faceswap, för att skapa en djupfake som bytte ut ansiktet på löjtnantkommandodata (Brent Spiner) från  Star Trek: The Next Generation till en video av Mark Zuckerberg som vittnade inför kongressen. Som det är typiskt för deepfakes klarar inte resultatet snifftestet för någon med betydande grafikfiness. Så, den senaste tekniken för deepfakes är fortfarande inte särskilt bra, med sällsynta undantag som beror mer på "konstnärens" skicklighet än tekniken.

Det är lite tröst, med tanke på att den vinnande DFDC-detekteringslösningen inte är särskilt bra heller. Under tiden har Microsoft meddelat, men har inte släppt när detta skrivs, Microsoft Video Authenticator. Microsoft säger att Video Authenticator kan analysera ett stillbild eller en video för att ge en procentuell chans, eller förtroende poäng, att media är konstgjort manipuleras.

Video Authenticator testades mot DFDC dataset; Microsoft har ännu inte rapporterat hur mycket bättre det är än Seferbekovs vinnande Kaggle-lösning. Det skulle vara typiskt för en AI-tävlingssponsor att bygga på och förbättra de vinnande lösningarna från tävlingen.

Facebook lovar också en djupfalsdetektor, men planerar att hålla källkoden stängd. Ett problem med deepfake-detektorer som Seferbekov är öppna sourcing är att utvecklare av deepfake-generationen kan använda detektorn som diskriminator i ett GAN för att garantera att falken kommer att passera den detektorn och så småningom driva upp en AI-vapenlopp mellan deepfake-generatorer och deepfake-detektorer.

På ljudfronten kan Descript Overdub och Adobes demonstrerade men ännu ej släppta VoCo göra text-till-tal nästan realistiskt. Du tränar Overdub i cirka 10 minuter för att skapa en syntetisk version av din egen röst; när du är utbildad kan du redigera dina röstöversikter som text.

En relaterad teknik är Google WaveNet. WaveNet-syntetiserade röster är mer realistiska än vanliga text-till-tal-röster, men inte riktigt på nivån av naturliga röster, enligt Googles egna tester. Du har hört WaveNet-röster om du nyligen har använt röstutdata från Google Assistant, Google Search eller Google Translate.

Deepfakes och pornografi utan samtycke

Som jag nämnde tidigare bytte den ursprungliga djupfaken en skådespelers ansikte på kroppen av en porrartist i en video. Reddit har sedan dess förbjudit sub-Reddit / r / deepfake som var värd för den och andra pornografiska deepfakes, eftersom det mesta av innehållet var pornografi utan samtycke, vilket nu är olagligt, åtminstone i vissa jurisdiktioner.

En annan under Reddit för icke -pornographic deepfakes existerar fortfarande på / r / SFWdeepfakes. Medan invånarna i den sub-Reddit hävdar att de gör ett bra arbete, måste du själv bedöma huruvida, säg, att se Joe Bidens ansikte dåligt förfalskat i Rod Serlings kropp har något värde - och om någon av de djupa förfalskningarna där går sniffprovet för trovärdighet. Enligt min mening kommer vissa nära att sälja sig själva som verkliga; de flesta kan välgörande beskrivas som råa.

Att förbjuda / r / deepfake eliminerar naturligtvis inte pornografi utan samtycke, som kan ha flera motiv, inklusive hämndporn, som i sig är ett brott i USA. Andra webbplatser som har förbjudit djupfakes utan samtycke inkluderar Gfycat, Twitter, Discord, Google och Pornhub, och slutligen (efter mycket fotdragning) Facebook och Instagram.

I Kalifornien har individer som är inriktade på sexuellt uttryckligt djupt falskt innehåll som görs utan deras samtycke orsak till handling mot innehållets skapare. Även i Kalifornien är det förbjudet att distribuera skadliga, djupa falska ljud eller visuella medier som riktar sig till en kandidat som är kandidat till offentligt ämbete inom 60 dagar efter valet. Kina kräver att deepfakes tydligt märks som sådana.

Deepfakes i politik

Många andra jurisdiktioner saknar lagar mot politiska förfalskningar. Det kan vara oroande, särskilt när högkvalitativa förfalskningar av politiska personer gör det till en bred distribution. Skulle en djupfake av Nancy Pelosi vara värre än den konventionellt avmattade videon av Pelosi som manipulerades för att få det att låta som att hon slurrade sina ord? Det kan vara, om det produceras bra. Se till exempel den här videon från CNN, som koncentrerar sig på deepfakes som är relevanta för presidentkampanjen 2020.

Deepfakes som ursäkter

”It's a deepfake” är också en möjlig ursäkt för politiker vars verkliga, pinsamma videor har läckt ut. Det hände nyligen (eller påstods ha hänt) i Malaysia när en gaysexband avfärdades som en förfalskning av ekonomiministern, även om den andra mannen som visades i bandet svor att det var verkligt.

På baksidan var fördelningen av en trolig amatördypfake av den sjuka presidenten Ali Bongo i Gabon en bidragande faktor till en efterföljande militärkupp mot Bongo. Deepfake-videon tipsade militären om att något var fel, ännu mer än Bongos långvariga frånvaro från media.

Fler djupa falska exempel

En nyligen djupfake-video av All Star , 1999 års Smash Mouth-klassiker, är ett exempel på att manipulera video (i det här fallet en mashup från populära filmer) till falsk läppsynkronisering. Skaparen, YouTube-användare ontyj, konstaterar att han "låtit sig testa wav2lip och nu existerar det här ..." Det är underhållande, men inte övertygande. Ändå visar det hur mycket bättre falsk läpprörelse har blivit. För några år sedan var onaturlig läpprörelse vanligtvis en död giveaway för en falsk video.

Det kunde ha varit värre. Ta en titt på denna djupa falska video av president Obama som mål och Jordan Peele som förare. Föreställ dig nu att det inte inkluderade något sammanhang som avslöjade det som falskt och inkluderade en branduppmaning till handling.

Är du livrädd än?

Läs mer om maskininlärning och djupinlärning:

  • Djupinlärning kontra maskininlärning: Förstå skillnaderna
  • Vad är maskininlärning? Intelligens härledd från data
  • Vad är djupinlärning? Algoritmer som efterliknar den mänskliga hjärnan
  • Maskininlärningsalgoritmer förklaras
  • Automatiserad maskininlärning eller AutoML förklaras
  • Övervakat lärande förklaras
  • Semiövervakat lärande förklaras
  • Oövervakat lärande förklaras
  • Förstärkning lärande förklaras
  • Vad är datasyn? AI för bilder och video
  • Vad är ansiktsigenkänning? AI för Big Brother
  • Vad är naturlig språkbehandling? AI för tal och text
  • Kaggle: Där dataforskare lär sig och tävlar
  • Vad är CUDA? Parallell bearbetning för GPU: er