主机发布

aiOla 推出 Drax 语音识别模型:性能超越 OpenAI Whisper 与阿里 Qwen2-Audio

aiOla 推出 Drax 语音识别模型:性能超越 OpenAI Whisper 与阿里 Qwen2-Audio

Drax 采用全新流匹配生成技术,实现五倍速度提升与高精度语音识别,成为开源语音 AI 新标杆。

语音识别技术迎来了新的突破。来自以色列的语音 AI 公司 aiOla 推出了全新开源模型 Drax,号称在速度与准确度上全面超越 OpenAI 的 Whisper 以及阿里巴巴的 Qwen2-Audio 模型。

🔊 创新架构:基于流匹配的生成方法

不同于传统的逐步降噪或扩散模型,Drax 采用了 Flow-Matching(流匹配)生成架构
这种模型通过学习“连续向量场”来直接在噪声与真实数据之间建立平滑的概率路径,从而更高效地生成准确语音结果。

简单来说,它不再像扩散模型那样逐步“清除噪声”,而是直接绘制一条从噪声到数据的“平滑路径”,极大提升了响应速度与语音自然度。

⚡ 实现低延迟与高准确率

aiOla 表示,Drax 能在保持 与 Whisper 相同甚至更高准确率的同时,速度提升 5 倍以上
其平均词错误率(WER)仅为 7.4%,优于 Whisper-large-v3(7.6%),并在多项数据集上超过 Alibaba Qwen2-Audio。

这一成果得益于 Drax 的并行输出机制:传统 ASR(自动语音识别)模型通常“逐字”预测,而 Drax 能一次性生成完整的语音 Token 序列,捕捉上下文信息的同时,消除长文本识别中常见的累积误差。

🧠 面向企业级语音场景优化

aiOla 首席科学家 Yossi Keshet 指出,Drax 特别针对 企业级场景(如呼叫中心、医疗记录、制造监控等)进行优化,能在嘈杂或方言混杂的语音环境中保持高稳定性。
这一特性让其在实时会议转录、客服语音分析、工业合规监控等场景中具备显著优势。

🌐 多语言支持与开源生态

除了英语,Drax 还支持 西班牙语、法语、德语与普通话(中文),并在多语言基准测试中展现出一致的高性能。
aiOla 表示,Drax 的开源策略旨在推动语音 AI 社区的协作与创新,为未来的多语言语音交互打下基础。

💬 官方发声

“语音是人类最自然的交互方式,未来也将成为人与机器交流的主流。”
—— aiOla 总裁 Amir Haramty

他补充说,Drax 的推出弥补了语音识别在实时性与精度上的长期缺陷,让语音输入真正能跟上现实世界的速度。