速度与准确性的权衡:苹果新语音转录 API 对比测试

IT之家 7 月 4 日消息,科技媒体 9to5Mac 昨日(7 月 3 日)发布博文,对比测试了苹果系统的全新转录 API,认为该 API 在速度上优于 OpenAI 的 Whisper 模型,但在准确性上仍有一定差距。

IT之家注:该媒体使用一段 9to5Mac Daily 的播客音频测试,长度为 7 分 31 秒,对比了苹果的新转录 API、OpenAI 的 Whisper Large v3 Turbo(通过 MacWhisper 应用)和英伟达的 Parakeet v2 模型。

速度与准确性的权衡:苹果新语音转录 API 对比测试

测试平台为 M2 Pro 芯片的 MacBook Pro 笔记本,配备了 16GB 内存,使用 Metric: cer 和 Metric: wer 两款 Hugging Face Spaces 来分析实际的字符错误率(CER)和单词错误率(WER)。

结果显示,Parakeet v2 的转录时间最短,仅为 2 秒,但 CER 和 WER 较高;Whisper Large V3 Turbo 的准确性最高,但转录时间长达 40 秒;苹果的模型在速度上接近 Parakeet,但准确性优于后者。

模型 转录时间 字符错误率 单词错误率
Parakeet v2 2 seconds 5.8% 12.3%
Whisper Large V3 Turbo 40 seconds 0.2% 1.5%
Apple 9 seconds 1.9% 10.3%

该媒体还使用了 ChatGPT、Claude 和 Gemini 为基线来计算 CER 和 WER。结果显示,每个模型的性能都有所不同,但 Whisper 在准确性上仍领先。

ChatGPT (o4-mini-high)

模型 转录时间 字符错误率 单词错误率
Parakeet v2 2 seconds 6.0% 12.3%
Whisper Large V3 Turbo 40 seconds 0.4% 1.4%
Apple 9 seconds 2.1% 10.2%

Claude (Sonnet 4)

模型 转录时间 字符错误率 单词错误率
Parakeet v2 2 seconds 8.4% 11.0%
Whisper Large V3 Turbo 40 seconds 0.1% 1.0%
Apple 9 seconds 3.5% 8.2%

Gemini (2.5 Pro)

模型 转录时间 字符错误率 单词错误率
Parakeet v2 2 seconds 7.6% 12.3%
Whisper Large V3 Turbo 40 seconds 0.3% 0.4%
Apple 9 seconds 3.4% 5.3%

相关阅读:

  • 《8 秒转录 30 分钟播客:MacWhisper 应用接入英伟达 Parakeet 模型》

  • 《45 秒 AI 转录 34 分钟 4K 视频:苹果 Speech 技术力压群雄,比 OpenAI Whisper 快 55%》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章来源于互联网:IT之家-速度与准确性的权衡:苹果新语音转录 API 对比测试

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注