StepAudio 2.5上线：主观评分超GPT 18%定价3.8美元/小时

2026-05-08 22:27

午方 AI 监测到 StepZenith 正式部署端到端实时语音大模型 StepAudio 2.5 Realtime。该模型聚焦“类人类”交互体验，支持全方位角色定制及副语言信号识别，现已全面接入开放平台 API。StepAudio 2.5 Realtime 在反映实际使用体验的主观指标中斩获 80.41 分，较 GPT-Realtime-1.5 的 68.01 分高出近 18%，同时超越 Gemini Live 的 67.16 分；在语音问答测试中，其 79.80 分的表现约为 GPT-Realtime-1.5 的 1.5 倍，并在副语言理解、一般对话及车载场景测试中分别录得 82.18 分、86.36 分与 84.80 分。

技术架构层面，该模型通过算法处理超 10,000 个真实角色模板，构建百万级角色特征矩阵并结合海量对话数据训练，确保小众话题下的表现稳定性。针对角色扮演场景，引入专门设计的 RLHF 机制以解决“角色崩塌”问题；

同时深度整合 StepAudio 2.5 TTS 技术，显著提升场景还原度与句子细节处理能力。

API 协议兼容 OpenAI 实时标准（基于 WebSocket），降低开发者迁移成本。定价策略为输入数据每百万标记 10 元（缓存命中 2 元），输出数据每百万标记 70 元，官方估算连续语音通话成本约为每小时 3.8 美元。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包