Deepgram推出Aura:面向对话式人工智能代理的实时文本转语音API

Deepgram已经成为语音识别领域领先的初创公司今天,这家资金充足的公司宣布推出其最新产品Aura

“`html

Deepgram’s Aura empowers AI agents with a voice | ENBLE

Deepgram Aura

Deepgram,声音识别领域知名初创公司,最近推出了Aura,一种创新的实时文本到语音API。Aura将先进的语音模型与低延迟接口相结合,使开发人员能够创建实时对话的AI代理。这些代理能够有效地替代呼叫中心和其他面向客户的场景中的人类客服代表。

过去,获取高质量的语音模型是一项昂贵且耗时的过程。另一方面,低延迟模型往往缺乏自然的类人声音,听起来机械而人造。然而,Deepgram的Aura通过以实惠的价格提供在不到半秒内渲染的异常逼真的语音模型来解决这个困境 🚀。

根据Deepgram联合创始人兼首席执行官Scott Stephenson的说法,迫切需要能够理解和回应客户查询的实时语音AI机器人。然而,要开发成功的产品,准确性、低延迟和合理的成本是必不可少的。Deepgram已将Aura设计为满足这些要求的完美解决方案,超越了大多数竞争对手在定价和性能方面。

目前,Aura的定价为每1000个字符令人印象深刻的0.015美元,比Google的WaveNet语音0.016美元每1000字符,以及亚马逊Polly的神经语音也是0.016美元每1000字符更加经济实惠。Deepgram优先考虑在成本、速度和准确性之间实现最佳平衡,这并不容易。该公司在构建基础架构方面的四年努力使其能够掌握这种微妙的平衡。

Aura目前提供了一打以上的语音模型,所有这些模型都是与专业配音演员合作创建的。Deepgram使用由其策划的数据集在内部进行了培训。用户可以通过这里提供的演示体验到Aura的异常质量和速度 here。虽然在测试过程中可能会遇到一些奇怪的发音,但Aura的显著速度,再加上Deepgram高质量的语音转文本模型,使其在市场上脱颖而出。

为了说明Aura响应速度的快慢,Deepgram强调该模型开始发声所用的时间(通常不到0.3秒)和语言模型生成完整响应所需的时间(通常不到一秒)。这确保与用户之间进行无缝高效的对话。

额外Q&A内容

Q:使用Aura的实时文本到语音API有什么好处?

A:Aura的实时文本到语音API使开发人员能够创建能够有效替代呼叫中心和其他客户面对场合的人类客服代表的对话AI代理。API的低延迟和高度逼真的语音模型确保用户享有顺畅自然的会话体验。

Q:Aura在定价方面与竞争对手相比如何?

A:Aura的定价为每1000个字符0.015美元,比其竞争对手更为经济实惠。虽然Google的WaveNet语音和亚马逊Polly的神经语音以每1000个字符0.016美元的价格提供相似的定价,但Aura提供了相对更便宜的选择,使其对业务而言成为一种有吸引力的选择。

Q:Deepgram如何确保其语音模型的质量?

A:Deepgram与配音演员合作,在公司内部创建培训数据集以用于其语音模型。这种合作确保了模型的最高质量和真实性,从而产生自然而沉浸式的对话体验。

实时文本到语音API的影响和未来

Deepgram的Aura的推出代表了对话式AI领域的重大进展。通过提供低延迟、类人声音模型和经济实惠的组合,Aura有可能彻底改变客户服务互动方式,并改善整体用户体验。

这一发展还凸显了对能够理解并回应用户查询的实时语音AI机器人日益增长的需求。随着企业旨在提供高效、响应迅速的客户服务,预计实时文本到语音API的采用将迅速增加。这项技术有望简化呼叫中心运营,为组织节省时间和资源的同时,为用户提供更加个性化和高效的客户体验。

“““html

在未来,我们可以预期实时文本转语音API方面的进一步发展,拥有更加自然的语音模型和增强的对话能力。随着人工智能的能力不断提升,我们可能会见证AI代理在不仅限于客户服务的各个行业中得到无缝集成,如医疗保健、教育和娱乐。

要及时了解该领域最新趋势和发展,请阅读以下相关文章:

别忘了与对实时文本转语音API感兴趣的朋友和同事分享这篇文章。让我们开始一场对话,一起探索无限可能性!✨🗣️

本文最初发表在TechCrunch上。

“`