
Eleven v3 Audio Tags: Bringing multi-character dialogue to life
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Eleven v3 アルファのご紹介
v3を試す発売から1か月、Scribeは業界で最も進んだスピーチ to テキストモデルであることを証明し続けています。
提供開始からわずか1か月で、私たちの音声テキスト変換(Speech to Text) モデル Scribeは、その業界最高水準の精度によって何千もの企業を魅了しました。メディアの字幕付けからコールセンター、医療用の文字起こしまで、Scribeは急速に開発者の間で選ばれるモデルとなっています。
業界最高水準のパフォーマンス
複数の第三者分析により、Scribeがすべてのモデルを上回り、OpenAIの新しい4oトランスクライブモデルを含むすべてのモデルを上回ることが確認されました。例えば、人工分析のベンチマークでは、Scribeが4oおよび4o miniトランスクリプトよりも平均してWord Error Rateで優れていることが示されています。
Scribeは、OpenAIの独自のローンチベンチマークでも、4oおよび4o miniトランスクリプションモデルと同等かそれ以上の性能を発揮し、テストされた15言語のうち11言語で優れています。例えば、日本語とヒンディー語では、OpenAIの4oモデルよりも大幅に優れています。
Scribeでは、顧客にとって可能な限り有用であるように決定を行いましたが、それが業界ベンチマークにおける不一致を生むこともあります。例えば:
そのため、パフォーマンスを考える際には最終的な結果を見ることが重要です。例えば、英語においては、OpenAIの4o Speech to Textモデルはベンチマーク上ではScribeと同程度のパフォーマンスを持っています。しかし、英語の書き起こしを比較すると、Scribeの高度な機能が際立っていることがよく分かります。
この 英国議会公聴会の書き起こし分析では、Scribeがアクセントやさまざまな声のトーンを正確に捉え、背景の雑音や笑い声を適切にラベリングしながら、一切ミスをしないことが分かります。
ElevenLabsのScribe (トランスクリプト作成に要した時間:4.66秒)
尊敬する方にお尋ねしますが、この場所をよりアクセスしやすくするために、特に障害を持つ同僚のためにどのような作業が行われているのでしょうか?そうだ、そうだ。(群衆のざわめき)すみません、私の南半球の背景に関係があるのかもしれません。質問をもう一度繰り返していただけますか?理解できませんでした。(群衆の笑い)わあ。今日はとても人気ですね。ええと、私は言っていましたが、多くの障害を持つ議会の同僚が、敷地内の特定の部分を移動するのが非常に困難だと感じています。この改修作業を行っていることを考えると、障害を持つ人々がより自由に移動できるようにし、この場所がアクセスしやすくなるためには何ができるでしょうか?ポールさん。(群衆の笑い)本当に申し訳ありません。どうか南半球の英語でゆっくりとお願いできますか?ありがとうございます。どんな答えでもいいので。答えは...答えは助けになるかもしれません。書面で返信していただければ読むときに、スピーカーさん。はい、クリス・エルモア。(笑)ありがとうございます、副議長、最初の試みでやってみます。(群衆のざわめき)ああ、いや。あなたはウェールズ人ですね。私はウェールズ人なので、神様が彼を助けてくれますように。
OpenAIの4o (トランスクリプト作成時間:5.01秒)
尊敬する方にお尋ねしますが、この場所をよりアクセスしやすくするために、特に障害を持つ同僚のためにどのような作業が行われているのでしょうか?すみません、私の南半球の背景に関係があるのかもしれません。質問をもう一度繰り返していただけますか?理解できませんでした。今日はとても人気ですね。多くの障害を持つ議会の同僚が、敷地内の特定の部分を移動するのが非常に困難だと感じています。この改修作業を行っていることを考えると、障害を持つ人々がより自由に移動できるようにし、この場所がアクセスしやすくなるためには何ができるでしょうか?本当に申し訳ありません。どうか南半球の英語でゆっくりとお願いできますか?答えは助けになるかもしれません。書面で返信していただければ読むときに。ありがとうございます、副議長、最初の試みでやってみます。なぜなら私はウェールズ人なので、神様が彼を助けてくれますように。
AIの進化のたびに、大きな恩恵を受けるにもかかわらず見過ごされがちなグループがいます。それは、吃音のある人々です。吃音は遺伝的な発話障害であり、人口の約1%に影響を及ぼします。これは、自動音声認識(ASR)システムにとって特有の課題をもたらします。
吃音が約4語に1語の割合で発生するテストサンプルを用いた研究では、Scribeのパフォーマンスは特に優れており、平均98.7%の精度を達成しました。これは、Scribeが業界をリードし、あらゆる企業ニーズに対応したモデルを提供していることを改めて証明するものです。
Scribeのパフォーマンスは、企業顧客のニーズを解決するために最適化された機能セットによって真価を発揮します。
これらすべての機能はAPIで提供されており、開発者は妥協なく自由に活用できます。
さらに、Scribeのリアルタイムストリーミング版と低遅延版も今後数週間以内に提供予定です。これにより、Scribeは史上最も高度な音声認識モデルとしての地位を確立し、あらゆるビジネスユースケースに対応。スピード、コスト、精度のバランスを柔軟に選択できるようになります。
ぜひScribeをお試しください!当社のWeb版は4月9日まで無料でご利用いただけます。Scribeの料金は非常に競争力があり、企業向けプランは1時間あたり$0.22からご利用いただけます。
ご興味がございましたら、お気軽に営業チームにお問い合わせください。デモのご案内をさせていただき、貴社のビジネスにどのように貢献できるかをご紹介いたします。
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Learn how Voice Cloning works, how to use it, and how to get started.