Afin d’acquérir une compréhension moins superficielle et moins théorique du phénomène des fake news de type deepfake, je viens d’expérimenter concrètement l’utilisation de plusieurs intelligences artificielles combinées ensemble afin de produire ma propre deepfake.
J’ai choisi ainsi d’imaginer une discussion fictive entre les 2 philosophes célèbres, non contemporains l’un de l’autre, afin de ne porter préjudice à personne et montrer aussi le potentiel éducatif et positif de ces technologies d’intelligence artificielle.
Voici l’ensemble de ma recette de cuisine IA :
- Dialogues entre Jean-Jacques Rousseau et Friedrich Nietzsche : GPT4-o
- Bureaux de Jean-Jacques Rousseau et Friedrich Nietzsche : Dall-E 3
- Deep Fake via https://huggingface.co pour l’infrastructure informatique :
- FaceFusion permet de superposer une photographie de visage en photo à un visage présent dans une vidéo. Pour les 2 premières séquences vidéo pour lesquelles il a été utilisé, le traitement a nécessité 2 heures de calcul (soit 3 $ sur huggingface.co)
- TTS x Hallo Talking Portrait permet de « faire parler » une photographie de visage à partir d’un enregistrement audio de voix. Il a été utilisé pour l’ensemble des séquences qui suivent l’introduction et a nécessité 13 heures et 4 minutes de calcul (soit 19 $ 60 sur huggingface.co)
- Ilaria RVC permet de transformer une voix enregistrée en audio à partir d’un modèle. Dans le cas de la voix de Nietzsche, j’ai choisi un accent allemand avec « random german soldier from ww2 (250 Epochs) » via https://voice-models.com. Ce traitement, beaucoup plus rapide que les 2 précédents, a nécessité 2 heures et 11 minutes de calcul (soit 1 $ 31 sur huggingface.co)
- Musiques :
- Les Indes Galantes de Jean-Philippe Rameau via https://youtu.be/KOTo7doEVfc?si=7NvdrFXezFUiH4OK et https://www.youtube.com/@LesArtsFlorissants (Licence de paternité Creative Commons (réutilisation autorisée)) lorsque Jean-Jacques Rousseau parle.
- Rienzi Ouverture de Richard Wagner via https://youtu.be/iTmo5uzF88k?si=PpMRhRFF-0OsNl_z et Cultural heritage _ classical music (Licence de paternité Creative Commons (réutilisation autorisée)) lorsque Nietzsche parle.
- Montage : Filmora
Les technologies employées sont à la portée de tous et ne nécessitent pas de compétences informatiques avancées. Voici des tutoriels vidéos pour apprendre à faire ce type de deepfake : https://youtu.be/UlrGvZcesa8?si=gpPNlGyVQzXQX4pZ via https://www.youtube.com/@jeanviet
En conclusion, même si le travail effectué est assez simple pour l’humain, le temps de traitements par la machine reste quand même globalement assez long. Cette vidéo de moins de 10 minutes aura ainsi nécessité plus de 17 heures de temps de calcul pour un coût total de près de 24 $.