Eleven v3 アルファのご紹介

ScribeとOpenAIの4o Speech to Textモデルの比較

2025年3月24日 • 2 分で読めます

A smiling man with wavy hair and a beard, wearing a denim shirt, in black and white.

発売から1か月、Scribeは業界で最も進んだスピーチ to テキストモデルであることを証明し続けています。

Introducing iScribe v1, the world's most accurate speech-to-text model.

提供開始からわずか1か月で、私たちの音声テキスト変換（Speech to Text) モデル Scribeは、その業界最高水準の精度によって何千もの企業を魅了しました。メディアの字幕付けからコールセンター、医療用の文字起こしまで、Scribeは急速に開発者の間で選ばれるモデルとなっています。

業界最高水準のパフォーマンス

複数の第三者分析により、Scribeがすべてのモデルを上回り、OpenAIの新しい4oトランスクライブモデルを含むすべてのモデルを上回ることが確認されました。例えば、人工分析のベンチマークでは、Scribeが4oおよび4o miniトランスクリプトよりも平均してWord Error Rateで優れていることが示されています。

4oトランスクライブはScribeより16%多くエラーを出します
4o miniトランスクライブはScribeより71%多く誤りを犯します

Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribeは、OpenAIの独自のローンチベンチマークでも、4oおよび4o miniトランスクリプションモデルと同等かそれ以上の性能を発揮し、テストされた15言語のうち11言語で優れています。例えば、日本語とヒンディー語では、OpenAIの4oモデルよりも大幅に優れています。

日本語では、OpenAIの4oスピーチ to テキストモデルがScribeより55%多く誤りを犯し、4o miniモデルでは105%多く誤りを犯します
- OpenAIの4oスピーチ to テキストモデルはScribeより55%多くエラーを出します
- 彼らの4o miniモデルはScribeより105%多くエラーを出します
ヒンディー語:
- OpenAIの4oスピーチ to テキストモデルはScribeより18%多くエラーを出します
- 彼らの4o miniモデルはScribeより37%多くエラーを出します

Scribeでは、顧客にとって可能な限り有用であるように決定を行いましたが、それが業界ベンチマークにおける不一致を生むこともあります。例えば：

Scribeは数字を「one」「two」「three」としてキャプチャしますが、FLEURSベンチマークでは実際の数字「1」「2」「3」を使用するため、エラーが発生します
Scribeは「hum」「ha」「hey」といった言葉を検出でき、顧客にとってより多くのコンテキストを得るのに役立ちますが、これらの言葉はベンチマークに含まれていないため、再び人工的なエラーが発生します

そのため、パフォーマンスを考える際には最終的な結果を見ることが重要です。例えば、英語においては、OpenAIの4o Speech to Textモデルはベンチマーク上ではScribeと同程度のパフォーマンスを持っています。しかし、英語の書き起こしを比較すると、Scribeの高度な機能が際立っていることがよく分かります。

トランスクリプトの比較

この英国議会公聴会の書き起こし分析では、Scribeがアクセントやさまざまな声のトーンを正確に捉え、背景の雑音や笑い声を適切にラベリングしながら、一切ミスをしないことが分かります。

ElevenLabsのScribe (トランスクリプト作成に要した時間：4.66秒）

尊敬する方にお尋ねしますが、この場所をよりアクセスしやすくするために、特に障害を持つ同僚のためにどのような作業が行われているのでしょうか？そうだ、そうだ。（群衆のざわめき）すみません、私の南半球の背景に関係があるのかもしれません。質問をもう一度繰り返していただけますか？理解できませんでした。（群衆の笑い）わあ。今日はとても人気ですね。ええと、私は言っていましたが、多くの障害を持つ議会の同僚が、敷地内の特定の部分を移動するのが非常に困難だと感じています。この改修作業を行っていることを考えると、障害を持つ人々がより自由に移動できるようにし、この場所がアクセスしやすくなるためには何ができるでしょうか？ポールさん。（群衆の笑い）本当に申し訳ありません。どうか南半球の英語でゆっくりとお願いできますか？ありがとうございます。どんな答えでもいいので。答えは...答えは助けになるかもしれません。書面で返信していただければ読むときに、スピーカーさん。はい、クリス・エルモア。（笑）ありがとうございます、副議長、最初の試みでやってみます。（群衆のざわめき）ああ、いや。あなたはウェールズ人ですね。私はウェールズ人なので、神様が彼を助けてくれますように。

OpenAIの4o (トランスクリプト作成時間：5.01秒）

尊敬する方にお尋ねしますが、この場所をよりアクセスしやすくするために、特に障害を持つ同僚のためにどのような作業が行われているのでしょうか？すみません、私の南半球の背景に関係があるのかもしれません。質問をもう一度繰り返していただけますか？理解できませんでした。今日はとても人気ですね。多くの障害を持つ議会の同僚が、敷地内の特定の部分を移動するのが非常に困難だと感じています。この改修作業を行っていることを考えると、障害を持つ人々がより自由に移動できるようにし、この場所がアクセスしやすくなるためには何ができるでしょうか？本当に申し訳ありません。どうか南半球の英語でゆっくりとお願いできますか？答えは助けになるかもしれません。書面で返信していただければ読むときに。ありがとうございます、副議長、最初の試みでやってみます。なぜなら私はウェールズ人なので、神様が彼を助けてくれますように。

吃音のある話し言葉の書き起こしによるアクセシビリティ

AIの進化のたびに、大きな恩恵を受けるにもかかわらず見過ごされがちなグループがいます。それは、吃音のある人々です。吃音は遺伝的な発話障害であり、人口の約1%に影響を及ぼします。これは、自動音声認識（ASR）システムにとって特有の課題をもたらします。

吃音が約4語に1語の割合で発生するテストサンプルを用いた研究では、Scribeのパフォーマンスは特に優れており、平均98.7%の精度を達成しました。これは、Scribeが業界をリードし、あらゆる企業ニーズに対応したモデルを提供していることを改めて証明するものです。

企業向けソリューション

Scribeのパフォーマンスは、企業顧客のニーズを解決するために最適化された機能セットによって真価を発揮します。

精密な単語レベルのタイムスタンプにより、クリエイターやメディア・エンターテインメント業界にとって大きな価値を提供します。これにより、書き起こしデータをキャプションや検索可能なエントリー、正確な翻訳に活用できます。
スマートな話者識別機能により、会議や営業プレゼン、カスタマーサポートの通話を要約し、より正確で実用的なインサイトを得ることが可能になります。これにより、チーム内のコラボレーションやトレーニングが向上します。
ダイナミックな音声タグ付けにより、音声データのコンテンツや文脈をより詳細に把握でき、例えば感情分析の実施が可能になります。
99の言語に対応しており、単一の統合でグローバルな市場へ簡単にリーチできます。

これらすべての機能はAPIで提供されており、開発者は妥協なく自由に活用できます。

さらに、Scribeのリアルタイムストリーミング版と低遅延版も今後数週間以内に提供予定です。これにより、Scribeは史上最も高度な音声認識モデルとしての地位を確立し、あらゆるビジネスユースケースに対応。スピード、コスト、精度のバランスを柔軟に選択できるようになります。

いますぐ始めてみましょう

ぜひScribeをお試しください！当社のWeb版は4月9日まで無料でご利用いただけます。Scribeの料金は非常に競争力があり、企業向けプランは1時間あたり$0.22からご利用いただけます。

ご興味がございましたら、お気軽に営業チームにお問い合わせください。デモのご案内をさせていただき、貴社のビジネスにどのように貢献できるかをご紹介いたします。

Resources

Resources

Eleven v3 Audio Tags: Bringing multi-character dialogue to life

Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.

Resources

Resources

What is Voice Cloning? How AI replicates the human voice

Learn how Voice Cloning works, how to use it, and how to get started.

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン

ScribeとOpenAIの4o Speech to Textモデルの比較

トランスクリプトの比較

吃音のある話し言葉の書き起こしによるアクセシビリティ

企業向けソリューション

いますぐ始めてみましょう

もっと見る

Eleven v3 Audio Tags: Bringing multi-character dialogue to life

What is Voice Cloning? How AI replicates the human voice