Présentation de Eleven v3 Alpha

Présentation de Eleven Multilingual v1 : Notre nouveau modèle de synthèse vocale

27 avr. 2023 • 5 minutes de lecture

Notre approche actuelle de deep learning exploite plus de données, plus de puissance de calcul et des techniques novatrices pour offrir notre modèle de synthèse vocale le plus avancé

Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

Aujourd'hui, nous sommes ravis de lancer Eleven Multilingual v1 - notre modèle avancé de synthèse vocale prenant en charge sept nouvelles langues : français, allemand, hindi, italien, polonais, portugais, et espagnol. En s'appuyant sur la recherche qui a alimenté Eleven Monolingual v1, notre approche actuelle de deep learning utilise plus de données, plus de puissance de calcul et des techniques novatrices dans un modèle de plus en plus sophistiqué, capable de comprendre les nuances textuelles et de fournir une performance émotionnellement riche. Cette avancée élargit les horizons créatifs pour les créateurs, développeurs de jeux et éditeurs, et ouvre la voie à l'utilisation des médias génératifs pour créer un contenu plus localisé, accessible et imaginatif.

Le nouveau modèle est disponible dans tous les abonnements et vous pouvez l'essayer dès maintenant sur notre plateforme Beta.

ElevenLabs

Pour l'utiliser, sélectionnez-le simplement dans le menu déroulant nouvellement ajouté dans le panneau de synthèse vocale.

Aperçu de la recherche

Tout comme son prédécesseur, le nouveau modèle est entièrement basé sur notre recherche interne. Il conserve toutes les forces qui ont fait de Eleven Monolingual v1 un excellent outil de narration, comme la capacité d'ajuster la livraison en fonction du contexte et de transmettre l'intention et les émotions de manière hyperréaliste. Ces fonctionnalités ont maintenant été étendues aux nouvelles langues prises en charge grâce à l'entraînement sur des données multilingues.

Une caractéristique remarquable du modèle est sa capacité à identifier le texte multilingue et à l'articuler correctement. Vous pouvez maintenant générer du discours en plusieurs langues avec une seule invite tout en conservant les caractéristiques vocales uniques de chaque locuteur. Pour de meilleurs résultats, nous recommandons de fournir une invite dans une seule langue. Bien que le modèle puisse déjà bien fonctionner avec plusieurs langues à la fois, des améliorations supplémentaires sont nécessaires.

Le nouveau modèle est compatible avec d'autres fonctionnalités de VoiceLab comme Instant Voice Cloning et Voice Design. Toutes les voix créées devraient conserver la plupart de leurs caractéristiques vocales originales dans toutes les langues, y compris leur accent d'origine.

Cela dit, le modèle a des limitations connues: les chiffres, acronymes et mots étrangers reviennent parfois à l'anglais lorsqu'ils sont demandés dans une autre langue. Par exemple, le nombre "11", ou le mot "radio", tapé dans une invite en espagnol peut être prononcé comme en anglais. Nous recommandons d'épeler les acronymes et les chiffres dans la langue cible pendant que nous travaillons sur des améliorations.

Démocratisation de la voix

ElevenLabs a été créé avec le rêve de rendre tout contenu universellement accessible dans n'importe quelle langue et avec n'importe quelle voix. Nos membres d'équipe viennent de toute l'Europe, d'Asie et des États-Unis. Alors que notre équipe et le monde deviennent de plus en plus multilingues, nous sommes de plus en plus unis derrière la vision de rendre les voix IA de qualité humaine disponibles dans toutes les langues.

La dernière itération de notre Text-to-Speech (TTS) modèle n'est qu'une première étape sur notre chemin pour réaliser cette vision. Avec l'avènement des voix IA de qualité humaine, les utilisateurs et les entreprises peuvent désormais créer et personnaliser du contenu audio selon leurs besoins, priorités et préférences. Cela a déjà montré le potentiel de niveler le terrain de jeu pour les créateurs, petites entreprises et artistes indépendants. En exploitant la puissance de l'audio IA, les utilisateurs peuvent désormais développer des expériences auditives de haute qualité qui rivalisent avec celles produites par des organisations plus grandes avec plus de ressources.

Ces avantages s'étendent désormais aux applications multilingues, multiculturelles et éducatives en permettant aux utilisateurs, entreprises et institutions de produire un audio authentique qui résonne avec un public plus large. En fournissant une vaste gamme de voix, d'accents et de langues, l'IA aide à combler les écarts culturels et favorise la compréhension mondiale. Chez Eleven, nous croyons que cette nouvelle accessibilité favorise finalement une plus grande créativité, innovation et diversité.

Les créateurs de contenu qui cherchent à engager des audiences diverses ont maintenant les outils pour combler les écarts culturels et favoriser l'inclusivité.

Les développeurs de jeux et éditeurs peuvent créer des expériences immersives et localisées pour des audiences internationales, transcendant les barrières linguistiques et se connectant avec les joueurs et auditeurs pour maximiser l'engagement et l'efficacité, sans perte de qualité ou de précision.

Les institutions éducatives ont maintenant les moyens de produire du contenu audio pour divers utilisateurs dans leurs langues cibles, renforçant la compréhension linguistique et même les compétences de prononciation, tout en répondant à différents styles d'enseignement et besoins d'apprentissage.

Les instituts d'accessibilité peuvent désormais renforcer davantage les personnes ayant des déficiences visuelles ou des difficultés d'apprentissage en leur fournissant les moyens de convertir facilement des ressources moins accessibles en un support qui convient à leurs besoins, tant en contenu qu'en forme.

Nous avons hâte de voir nos créateurs et développeurs actuels et futurs repousser les limites du possible !

En voir plus

Online Conversational Agent Hackathon

To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.

Resources

Resources

Eleven v3 Audio Tags: Emulating accents with precision

Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter