Jag klonade mig själv med AI – ett foto + 1 min röst

I mars ska jag för första gången vara kursansvarig för forskningsmetodikundervisningen på psykoterapeutprogrammet. Fyra föreläsningar. Tre timmar styck. Alla under samma vecka. Jag bestämde mig för att göra något som kanske är lite vansinnigt: låta en digital klon av mig själv hålla delar av föreläsningarna. Och en viktig sak: jag står bredvid och leder diskussionen!

Resultatet kan du se här:

Ja, det är jag. Fast det är det inte. Det är en avatar skapad med ett enda foto och en röst klonad från sextio sekunders inspelning. Låt mig berätta hur det gick till.

Kroppen: HeyGen och ett snyggt foto

Verktyget heter HeyGen och gör ungefär vad det låter som – det genererar videor av en digital avatar som rör läpparna synkroniserat med tal. Det som förvånade mig var hur lite input som krävdes. Jag laddade upp ett enda foto av mig själv (tack Jokum Sommer för snyggt foto! 🙏), och ut kom en avatar som rör sig, blinkar och gestikulerar.

Är den perfekt? Nej. Rörelserna är lite hackiga. Men den är fullt tillräcklig för att förmedla en föreläsning – och betydligt mer engagerande än en statisk PowerPoint-slide med min röst som malande bakgrundsljud.

Rösten: ElevenLabs och en minut

Rösten klonade jag med ElevenLabs. Jag spelade in sextio sekunders talat material och fick tillbaka en syntetisk röst som låter — nåja, ganska mycket som jag. Den hanterar till och med betoning och känslolägen via speciella taggar i manuset: [excited], [whispers], [curious]. Det kan bli betydligt bättre med mer träningsmaterial, men redan på en minut är resultatet ganska imponerande.

Limmet: Python, Claude Code och öppen källkod

Det som tog mest tid var inte AI-verktygen i sig, utan att bygga en pipeline som knyter ihop allt. Manuset skrevs i samarbete med AI och redigeras i en webbeditor jag byggt själv, där varje mening synkroniseras med ljudet i realtid. En tidslinjeeditor hanterar bakgrundsbilder och timing. Sedan genereras video automatiskt med HeyGen, valideras med Whisper (OpenAI:s transkriptionsmodell) och compositas ihop med FFmpeg.

Hela kedjan styrs av Python-skript, utvecklade med hjälp av Claude Code. Och allt finns (snart) på GitHub som öppen källkod – så om du vill göra något liknande kan du utgå från mitt projekt.

Varför inte bara föreläsa vanligt?

Bra fråga. Det handlar inte om att ersätta mig själv – jag kommer vara fysiskt närvarande i rummet och leda diskussionerna. Men forskningsstödet för interpolerad testning är starkt: korta videosegment (3–7 minuter) följda av kunskapsfrågor halverar mind-wandering och förbättrar retention jämfört med traditionella föreläsningar. Studenterna tvingas vara aktiva, inte passiva.

Och för handen på hjärtat – hur kul är det egentligen att sitta tre timmar och lyssna på någon som pratar? Vi är många som zoomar ut efter ett kort tag. Det gör jag själv.

Vad jag lärde mig

Tröskeln är lägre än man tror. Ett foto och en minuts röstinspelning räcker för att komma igång. Kvaliteten kan förbättras stegvis. Och det är lätt att byta språk när hela föreläsningen är programkod!
Pipelinen är det svåra. AI-verktygen levererar (halv)bra råmaterial, men att sy ihop allt – manus, ljud, video, bakgrunder, timing – kräver en del handpåläggning.
Studenternas upplevelse avgör. Jag vet inte ännu hur studenterna kommer att reagera. Det blir ett experiment i sig. Hoppas de tycker det är okej – och åtminstone uppskattar att de kan spela upp mig i dubbel hastighet när de tröttnar!

Vill du testa själv?

Hela projektet – pipeline, editor, skript – finns öppet på GitHub: “AvatarLecture” (länken kommer snart!). Du behöver API-nycklar till HeyGen och ElevenLabs, men i övrigt är det bara att köra.

Hör gärna av dig om du testar – eller om du har idéer om hur detta kan göras bättre!

Originalfotot taget av Jokum Sommer (notera att man inte ser mina tänder, så dessa har AI uppfunnit själv i videon):