Combien d'audio faut-il pour cloner une voix en 2024-2025?

Les modèles les plus récents (ElevenLabs, RVC, OpenVoice) peuvent produire un clone vocal convaincant à partir de 3-10 secondes d

Est-ce qu'un appel vocal vérifié (comme Signal) protège contre le clonage?

Contre le clonage en temps réel, oui dans une certaine mesure — les appels chiffrés sont plus difficiles à intercepter proprement. Mais si l

Un clone vocal peut-il tromper ma banque au téléphone?

Certaines banques utilisent la reconnaissance vocale comme facteur d

Vie privée & IA

Clonage vocal IA : protéger ta voix avec AntiFake

20 février 2025 5 min de lecture 0

TL;DR : Les IA de clonage vocal de 2024-2025 nécessitent 3 secondes d’audio pour créer un clone convaincant. AntiFake et des outils similaires modifient subtilement ton audio pour empoisonner les modèles d’entraînement, rendant le clonage non fonctionnel — sans que l’audio soit audiblement différent pour les humains. Ce guide explique le risque réel, les outils disponibles, et les bonnes pratiques.

En 2023, un cadre d’une entreprise de Hong Kong a autorisé un virement de 25 millions de dollars lors d’un appel vidéo avec son “PDG” et plusieurs collègues. Tous étaient des deepfakes en temps réel. Lui seul était réel.

Le clonage vocal est une des composantes de ces attaques. Et contrairement aux deepfakes vidéo (qui nécessitent encore des heures d’images), le clonage audio fonctionne avec quelques secondes de ta voix — extraites de n’importe quelle vidéo que tu as publiée.

Ce que les IA de clonage vocal peuvent faire en 2025

Les capacités actuelles

ElevenLabs Voice Cloning : 3-10 secondes d’audio suffisent pour un clone de base. Avec 1-3 minutes, le résultat est quasi-indistinguable pour la plupart des auditeurs.

RVC (Retrieval-based Voice Conversion) : Open source, gratuit, utilisable localement. Populaire dans les communautés de désinformation pour créer de faux messages audio.

OpenVoice (MIT) : Clone vocal zero-shot avec contrôle du style, du ton, de l’accent.

Microsoft VALL-E : Démontre le clonage en 3 secondes avec préservation de l’environnement acoustique.

Où les attaquants trouvent l’audio

Vidéos YouTube, Instagram, TikTok, LinkedIn
Podcasts, interviews
Messages vocaux transférés (WhatsApp, iMessage vocal)
Appels enregistrés (légalement ou non)
Présentations, conférences filmées

Si tu as du contenu audio public, ton profil vocal est accessible.

Les risques concrets

Fraude financière (Business Email Compromise audio)

Un “faux PDG” qui appelle par téléphone ou laisse un message vocal demandant un virement urgent. La voix est convaincante — la demande semble authentique.

Le Canada Business Email Compromise (BEC) représentait 275 millions $ de pertes signalées en 2022 selon le Centre antifraude du Canada. Le vecteur vocal augmente.

Contenu diffamatoire

Des faux messages audio attribués à une personne réelle — politiciens, journalistes, personnes privées — publiés sur les réseaux sociaux. Difficile à démentir rapidement.

Contournement de l’authentification vocale

Des banques canadiennes (notamment TD et BMO) utilisent la reconnaissance vocale comme facteur d’authentification. Des clones vocaux peuvent potentiellement contourner ces systèmes.

AntiFake — l’outil de protection

Principe

AntiFake, développé par Zhiyuan Yu et l’équipe de l’Université Washington de St. Louis, utilise le même principe que Fawkes pour les images : ajouter un “bruit adversarial” imperceptible à l’audio, qui perturbe l’entraînement des modèles de clonage vocal.

Résultat : Si quelqu’un tente de cloner ta voix avec de l’audio traité par AntiFake, le modèle entraîné produira un clone non-fonctionnel ou associé à une autre identité vocale.

Ce que l’humain entend : Ton audio normal — la modification est inaudible.
Ce qu’un modèle IA entend : Une signature vocale perturbée qui ne peut pas servir de base d’entraînement.

Disponibilité actuelle

AntiFake est principalement disponible comme projet de recherche académique (code sur GitHub). Il n’existe pas encore d’application grand public aussi simple que Fawkes.

Pour les utilisateurs techniques :

# Installation depuis le repository AntiFake
git clone https://github.com/WUSTL-CSPL/AntiFake
pip install -r requirements.txt
python antifake.py --input audio.wav --output protected.wav

Pour les non-techniques : Surveiller les implémentations commerciales émergentes — des startups construisent des services basés sur ces principes.

Voice Guard et alternatives

Voice Guard (projet similaire, University of Michigan) — fonctionne sur des durées d’audio plus longues, meilleure résistance à la compression MP3/AAC.

SpeakerGuard — approche différente, modifie les caractéristiques acoustiques plutôt que d’ajouter du bruit.

Pratiques de réduction d’exposition

En attendant des outils grand public matures, des pratiques simples réduisent l’exposition :

Limiter l’audio public de qualité

Ne pas publier de longs segments audio claire sur les réseaux sociaux (plusieurs minutes de ta voix en contexte conversationnel)
Pour les podcasts et vidéos : acceptable, mais être conscient que le profil vocal est public
Messages vocaux WhatsApp : attention aux transferts non contrôlés

Vérification des appels suspects

Si tu reçois un appel vocal urgent d’une personne connue demandant quelque chose inhabituel (virement, mot de passe, accès) :

Raccrocher
Rappeler sur un numéro connu (pas le numéro qui a appelé)
Utiliser un mot de code préétabli avec tes proches ou collègues pour les situations d’urgence

Désactiver l’authentification vocale bancaire

Si ta banque utilise la reconnaissance vocale :

Appeler le service client et demander à désactiver cette méthode
Utiliser un PIN numérique à la place
Activer l’authentification à deux facteurs par application

Détecter le clonage vocal de ta voix

Surveillance proactive :

Google Alerts sur ton nom + “audio”, “voix”, “enregistrement”
Recherches périodiques sur YouTube et SoundCloud pour du contenu qui t’attribue des propos

Outils de détection :

AI or Not (aiornot.com) — analyse si un audio est généré par IA
Hive Moderation — détection de deepfakes audio
ElevenLabs AI Speech Classifier — détecte les voix générées par leur propre plateforme

Signaux suspects dans un audio :

Transitions abruptes ou respirations absentes
Intonation légèrement monotone ou mécanique
Absence de bruits de fond cohérents
Qualité audio trop propre pour le contexte

Recommandations

Pour les personnes ayant un profil public (créateurs, journalistes, politiciens) :

Tester AntiFake sur tes futurs enregistrements publics
Établir un mot de code de vérification avec proches et collègues
Désactiver l’authentification vocale bancaire
Surveiller l’utilisation de ta voix via Google Alerts

Pour tous :

Ne pas transférer de messages vocaux longs hors du contexte privé
Rappeler sur un numéro connu avant d’agir sur une demande urgente vocale
Signaler à la police tout deepfake audio diffamatoire (Loi sur la protection de la vie privée au Canada)

→ Si tu es journaliste ou militant, les risques sont plus élevés : Guide sécurité numérique journalistes et militants → Pour les deepfakes et l’arnaque vocale IA : Deepfake arnaque vocale IA au Canada

Khalid Mokrini

Cyber Security Specialist

Fondateur d'Informatique Ste-Foy (depuis 2014) et de Sequr.ca. Certifié en cybersécurité des réseaux informatiques par l'École Polytechnique de Montréal. Plus de 1 000 clients servis au Québec.

540+ avis (4.7/5)Québec, Canada

On peut vous aider

Par où voulez-vous commencer ?

Apprenez à vous protéger, sécurisez votre appareil, ou parlez directement à un expert certifié.

🎓 Découvrir les formations 🔒 Consultation privée — particulier ✉️ Nous contacter