登录
注册
午方 AI 监测到 StepZenith 正式部署端到端实时语音大模型 StepAudio 2.5 Realtime。该模型聚焦“类人类”交互体验,支持全方位角色定制及副语言信号识别,现已全面接入开放平台 API。StepAudio 2.5 Realtime 在反映实际使用体验的主观指标中斩获 80.41 分,较 GPT-Realtime-1.5 的 68.01 分高出近 18%,同时超越 Gemini Live 的 67.16 分;在语音问答测试中,其 79.80 分的表现约为 GPT-Realtime-1.5 的 1.5 倍,并在副语言理解、一般对话及车载场景测试中分别录得 82.18 分、86.36 分与 84.80 分。
技术架构层面,该模型通过算法处理超 10,000 个真实角色模板,构建百万级角色特征矩阵并结合海量对话数据训练,确保小众话题下的表现稳定性。针对角色扮演场景,引入专门设计的 RLHF 机制以解决“角色崩塌”问题;
同时深度整合 StepAudio 2.5 TTS 技术,显著提升场景还原度与句子细节处理能力。
API 协议兼容 OpenAI 实时标准(基于 WebSocket),降低开发者迁移成本。定价策略为输入数据每百万标记 10 元(缓存命中 2 元),输出数据每百万标记 70 元,官方估算连续语音通话成本约为每小时 3.8 美元。