新闻中心

亚马逊推出了新的AI语音模型Nova Sonic，Hamon Open

日期：2025-04-11 16:20 浏览：

它是4月9日的家，亚马逊发行了新一代的AI生成模型，称为Nova Sonic，该模型可以处理本地语音并产生自然而平滑的语音。根据亚马逊的说法，Nova Sonic播放与OpenAI和GOOGA的Cut-Edge语音模型相当，具有基本指标，例如速度，语音识别和对话质量。 Nova Sonic的到来是亚马逊对出现的AI语音模型的强烈反应，例如支持Chatgpt语音模式的模型，与语音联系时，这比像亚马逊的早期Alexa这样的刻板印象更自然。 Nova Sonic通过Amazon Bedrock Developer平台提供给用户，这是一种开发AI业务级别应用程序的工具，而Nova Sonic可以通过新的双向流媒体API访问。在新闻稿中，亚马逊将Nova Sonic称为市场上“最有效的” AI语音模型，该模型比OpenAI的GPT-4O便宜了几乎80％。据高级副总裁兼首席科学家罗希特·普拉萨德（Rohit Prasad）说人工通用情报情报（AGI）的ST，一些Nova Sonic组件加强了升级的数字语音助手Alexa+。普拉萨德说，与竞争对手的语音模型相比，Nova Sonic在任命用户请求时表现出色。这种功能使Nova Sonic能够确定是否有必要从Internet获取实时信息，解析所有权数据或对外部应用程序采取行动并使用正确的工具来完成任务。在一次双向对话中，Nova Sonic将等待“合适的时间”讲话，PinaScons考虑说话者的停止和中断。此外，Nova Sonic可以为用户语音生成文本记录，开发人员可以将其用于各种应用程序情况。根据Prasad的说法，Nova Sonic在语音识别错误中比其他AI语音模型更少，这意味着即使用户咆哮，该模型也很擅长理解用户的目标g单词，或在嘈杂的环境中。亚马逊在多种语言的Librispeech中是一个识别语言和方言的基准，说英语，法语，意大利语，德语和西班牙语的平均声音错误率（我们）仅为4.2％。也就是说，在这些语言中，模型中每100个单词中约有4个与人工转录的结果不同。它在洪灾中提到，在另一个用于测量大量触点的基准上 - 增强了多方联系人，亚马逊Novaang Sonic说，就单词错误率而言，Amazon Novaang Sonic比OpenAI的GPT-4O-TRANSCRICE模型高46.7％。亚马逊说，Nova Sonic的速度还以1.09秒的平均潜伏期领先。该速度比启用OpenAI的实时API的GPT-4O模型要快，其响应时间为1.18秒，基于手动审查的基准结果。普拉萨德（Prasad）说，诺瓦·索尼克（Nova SonicE（AGI），该公司将AGI定义为“可以在计算机上可以做的一切的AI系统”。普拉萨德（Prasad）表示，亚马逊计划推出Moreai模型，以了解各种方式，包括图像，视频和声音，以及“与将事物带入物理世界有关的其他感官数据”。由普拉萨德（Prasad）领导的亚马逊AGI部门现在似乎在公司的产品方法中起着重要作用。就在上周，亚马逊刚刚推出了Nova Act Preview，这是一种使用浏览器的AI模型，该浏览器似乎支持亚马逊“ Buy Me”功能的某些元素。普拉萨德（Prasad）说，从诺瓦·索尼克（Nova Sonic）开始，该公司希望在家中提供更多的AI模型，以帮助他们开发各种应用程序。