Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

原标题：Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天？

导读：

昨天黑夜告白官宣开机潘粤明和王鹤棣平番惊倒了一大片人大家眼里潘粤明的实绩论早期有三国演义京华烟云白蛇传论近期也有白夜追凶和鬼吹灯系列月日消息发布了一个名为的低延迟语音生成模型该...

昨天《黑夜告白》官宣开机，潘粤明和王鹤棣平番惊倒了一大片人。大家眼里，潘粤明的实绩论早期有《三国演义》、《京华烟云》、《白蛇传》，论近期也有《白夜追凶》和《鬼吹灯》系列。

5月31日消息: 发布了一个名为的低延迟语音生成模型，该模型以其快速的推理速度和超低的延迟引起了广泛关注。Sonic 的延迟仅为135毫秒，能够生成具有逼真情感和表达能力的语音。用户只需提供10秒的录音，Sonic 即可模仿说话者的韵律、语调和声音特征，并且可以调节音调、速度、情感、发音和速度。

图片截自歸藏

Sonic模型特点:

超低延迟:模型的延迟仅为135毫秒，这意味着它可以实时生成语音，非常适合聊天应用。

情感表达:Sonic能够展现出人类的情感和表达能力，使对话更加自然和富有表现力。

快速模仿:仅需10秒的录音，Sonic就能模仿说话者的韵律、语调和声音特征。

可调节参数:用户可以调节音调、速度、情感、发音等参数，定制化语音输出。

Cartesia 的目标是打造能够在任何设备上长期运行的实时智能系统。为此，他们引入了创新的“状态空间模型”（SSM）架构，用于构建下一代基础模型。SSM 模型能够处理任意大小的语境，并且可以原生地实时处理各种形式的模态。Cartesia 的创始人 Albert 和 Karan 在过去四年中共同开发了 SSM，这是一种更高效的 AI 模型构建方法，能够像人类一样流式传输信息。

在实时对话型 AI 的开发方面，Cartesia 已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的 AI 计算平台，该平台可以解决复杂问题，为用户带来全新的体验。低延迟是构建实时智能的一大挑战，模型需要在接收到输入时立即做出响应。通过新的 SSM 架构，Cartesia 提高了高分辨率模态（如音频和视频）的生成效率和低延迟性能。实验表明，与广泛使用的 Transformer 模型相比，他们的模型在质量、推理速度、吞吐量和延迟方面都有显著改进。

使用 SSM 架构，Cartesia 训练了 Sonic 语音模型，该模型能以135毫秒的延迟生成高质量、逼真的语音。为了实现低延迟和高吞吐量，他们优化了 SSM 推理系统，从而以更低的成本提供高质量的模型。Sonic 已经发布，并提供了一个 Web Playground 和低延迟 API。用户可以在 Playground 中使用多样化的语音库进行应用程序开发，包括客户支持、娱乐和内容创作，还支持即时克隆和语音设计（如调节速度和情感）。用户也可以通过 API 访问这些功能。

Cartesia 的下一个目标是在未来一年内实现原生多模态的实时智能，不仅局限于音频领域。他们希望能够实现对任何形式的模态进行即时理解和生成，进一步推动实时智能的发展。

：https://top.aibase.com/tool/carteisa-sonic

试玩地址：https://play.cartesia.ai/