Mer kul med AI
Såg ett väldigt kul projekt häromdagen av Ander Bjarby (LinkedIn-länk) där han med feeden ifrån sin övervakningskamera hade Twin Peaks-karaktärer berätta scenen som spelades in. Genialiskt tyckte jag.
Så jag plockade ut mina AI-moduler ifrån esignering.se och snickrade ihop något liknande, men med vår allas favorit Werner Herzog (Wikipedia, YouTube) – där jag klonade hans distinkta röst och dialekt via ElevenLabs och byggde ett litet verktyg där han fick berätta vad han såg på bilder ifrån i mitt fotoalbum.
Allt detta går att bygga ihop snabbt med öppet tillgängliga paket (en ElevenLabs-adapter byggde jag själv dock, deras API är fantastiskt enkelt att jobba i), det mest tidskrävande var att extrahera Herzogs röst (körde YouTube + Audacity) och därefter klona den. Allt som allt 3-4 timmar och ett par kronor i tokens till OpenAI och ElevenLabs.
Ett par exempel:
Pipeline:n är supersimpel; ladda upp, förstora om bilden (modellen behöver inte full upplösning), konvertera till Base64, ge prompt med bild till OpenAI (gpt-4o
som har direkt stöd för visual recognition) och mata output till ElevenLabs som skapar en .mp3-fil åt en.
Sedan är det ju frågan såklart om integritet, Werner har egen rätt till sin röst – är egentligen ganska galet att man ens kan göra så här, men är den tiden vi lever i. ElevenLabs försöker mitigera detta genom att skapa en mer exakt replika av en röst krävs extra och särskilt input, men i 80% av fallen är förmodligen "snabbversionen" övertygande nog för de flesta.
Kommer därför inte släppa verktyget publikt – själva appen kan dock eventuellt dyka upp som open source inom kort där man själv får komponera prompt och skapa röst (eller använda någon av tjänstens egna röster, som de flesta är läskigt bra).