Deepgram

Deepgram is a high-accuracy, low-latency speech-to-text API built for real-time and batch transcription at scale.

✓ メリット

クラス最高のリアルタイム文字起こし遅延 (<300ms)
Nova-2 モデルは、ノイズの多い音声に対して最高の精度を実現します
話者のダイアライゼーション、スマートフォーマット、トピック検出が含まれています
サインアップ時にたっぷり 200 ドルの無料クレジットをプレゼント

✗ デメリット

多言語サポートは Azure Speech や Google STT よりもまだ狭い
エンタープライズ層のみのオンプレミス展開
会議レコーダーは内蔵されていない - API のみの製品

無料プランあり	✓ 無料プランあり
料金モデル	usage
価格 (1 hour)	$0.10 USD
機能	realtimespeaker diarization
対応言語	en, ja
API	✓ 利用可能ドキュメント ↗
料金プラン	Free$0$200 in free credits on signup Pay-as-you-go$0.0043/minNova-2 model, no commitment GrowthFrom $4,000/yrVolume discounts, dedicated support EnterpriseCustomOn-prem, SLA, custom models
対応環境	api
連携	Twilio, Vonage, AWS, WebSocket streaming, Node.js / Python SDK
公式サイト	https://deepgram.com

AI解説

DeepgramのNova-2モデルは、英語音声の精度と遅延において、独立したSTTベンチマークで常にトップかそれに近いスコアを記録しています。WebSocketベースのリアルタイムストリーミングは、ライブキャプション、コールセンター分析、音声ファーストアプリ開発者に好まれています。包括的なSDK、優れたドキュメント、寛大な無料枠によるDXの良さが強いコミュニティを築いています。多言語の幅はAzure Speechに比べてまだ課題があります。

比較対象： Deepgram

Deepgram vs AssemblyAI

→

Deepgram vs Azure Speech (STT)

→

Deepgram vs OpenAI Whisper API

→

Deepgram vs Rev.ai

→