什么是“交交”?
“交交”是由上海交通大学听觉认知与计算声学实验室研发的全球首个纯学术界自研的口语对话情感大模型。它不仅是一个智能语音助手,更是一个支持多人实时对话、多语言交互、情感理解和表达的全能对话伙伴。
功能特色
多人对话,无缝切换
“交交”能够同时与多位用户进行自然流畅的对话,精准识别每个人的身份和发言内容,并给出个性化的回应。它还能对对话内容进行总结,提升对话效率。多语言与方言支持
“交交”支持汉语、英语、日语和法语等主流语言,并具备跨语言回复能力。针对中文,它优化了方言识别能力,能够精准理解四川话、山东话等地方特色方言。情感理解和表达
“交交”能够实时理解用户的情绪,并生成富有情感的回应,无论是幽默调侃、暖心安慰还是专业建议,都能恰到好处地表达。实时音色克隆与切换
“交交”支持高保真的声音模仿技术,可以实时学习并模仿用户的声音,实现多角色语音扮演风格。知识问答,无所不知
“交交”不仅是一个对话伙伴,还具备强大的知识问答能力,能够满足从学习辅导到科研探索的多种需求。
技术细节
端到端语音对话
“交交”采用鲁棒的音频编码器,将音频输入流式编码器得到离散序列,并对齐到文本序列空间,无需大规模高质量数据微调即可实现实时知识问答。多语言理解与生成
基于跨模态对齐机制,将多语言语音信号与文本在特征空间精准映射,实现跨语言场景下的无缝切换与高效语义理解。情感理解与表达
利用思维链技术生成符合对话场景的情感全局表征,提升对话交流的真实感。灵活拓展
强大的对齐策略支持文本与音频模态的任意方式拼接融合,为集成大规模文本大模型中的多种增强机制(如联网搜索、RAG检索增强生成等)提供了统一且可扩展的接口。
应用场景
教育领域
“交交”可以作为学习辅导工具,帮助学生完成从基础知识到复杂问题的解答。医疗健康
在医疗场景中,“交交”能够提供情感支持和健康咨询,提升患者的心理健康。娱乐互动
“交交”可以作为个性化娱乐伙伴,支持角色扮演和故事讲述。企业协作
在团队会议中,“交交”能够高效总结对话内容,提升协作效率。
性能测试与对比
在VoiceBench基准测试中,“交交”获得了79.05的平均分,仅次于OpenAI的GPT-4o模型,与GPT-4o-Audio的差距缩小到仅8%。在多语言测试中,“交交”在中英日法四种语言的表现均显著优于其他模型。
官方链接
项目介绍与内测申请:https://wj.sjtu.edu.cn/q/4FiP8hsB
总结
“交交”作为全球首个纯学术界自研的口语对话情感大模型,不仅在技术上实现了多项突破,还为智能语音交互领域带来了全新的可能性。它重新定义了人机交互的方式,让对话更加自然、智能、有趣,展现了学术界在科技创新中的无限潜力。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/3853.html