>
正文
StepAudio 2.5上线:主观评分超GPT 18%定价3.8美元/小时
2026-05-08 22:27

午方 AI 监测到 StepZenith 正式部署端到端实时语音大模型 StepAudio 2.5 Realtime。该模型聚焦“类人类”交互体验,支持全方位角色定制及副语言信号识别,现已全面接入开放平台 API。StepAudio 2.5 Realtime 在反映实际使用体验的主观指标中斩获 80.41 分,较 GPT-Realtime-1.5 的 68.01 分高出近 18%,同时超越 Gemini Live 的 67.16 分;在语音问答测试中,其 79.80 分的表现约为 GPT-Realtime-1.5 的 1.5 倍,并在副语言理解、一般对话及车载场景测试中分别录得 82.18 分、86.36 分与 84.80 分。

技术架构层面,该模型通过算法处理超 10,000 个真实角色模板,构建百万级角色特征矩阵并结合海量对话数据训练,确保小众话题下的表现稳定性。针对角色扮演场景,引入专门设计的 RLHF 机制以解决“角色崩塌”问题;

同时深度整合 StepAudio 2.5 TTS 技术,显著提升场景还原度与句子细节处理能力。

API 协议兼容 OpenAI 实时标准(基于 WebSocket),降低开发者迁移成本。定价策略为输入数据每百万标记 10 元(缓存命中 2 元),输出数据每百万标记 70 元,官方估算连续语音通话成本约为每小时 3.8 美元。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
StepStar
StepZenith
StepAudio 2.5 Realtime
GPT-Realtime-1.5
Gemini Live
StepAudio 2.5 TTS
分享:
back