交交:上海交大推出的全球首个纯学术界自研口语对话情感大模型

原创 2025-04-16 11:19:57新闻资讯
580

交交.webp

什么是“交交”?

“交交”是由上海交通大学听觉认知与计算声学实验室研发的全球首个纯学术界自研的口语对话情感大模型。它不仅是一个智能语音助手,更是一个支持多人实时对话、多语言交互、情感理解和表达的全能对话伙伴。

功能特色

  1. 多人对话,无缝切换
    “交交”能够同时与多位用户进行自然流畅的对话,精准识别每个人的身份和发言内容,并给出个性化的回应。它还能对对话内容进行总结,提升对话效率。

  2. 多语言与方言支持
    “交交”支持汉语、英语、日语和法语等主流语言,并具备跨语言回复能力。针对中文,它优化了方言识别能力,能够精准理解四川话、山东话等地方特色方言。

  3. 情感理解和表达
    “交交”能够实时理解用户的情绪,并生成富有情感的回应,无论是幽默调侃、暖心安慰还是专业建议,都能恰到好处地表达。

  4. 实时音色克隆与切换
    “交交”支持高保真的声音模仿技术,可以实时学习并模仿用户的声音,实现多角色语音扮演风格。

  5. 知识问答,无所不知
    “交交”不仅是一个对话伙伴,还具备强大的知识问答能力,能够满足从学习辅导到科研探索的多种需求。

技术细节

  1. 端到端语音对话
    “交交”采用鲁棒的音频编码器,将音频输入流式编码器得到离散序列,并对齐到文本序列空间,无需大规模高质量数据微调即可实现实时知识问答。

  2. 多语言理解与生成
    基于跨模态对齐机制,将多语言语音信号与文本在特征空间精准映射,实现跨语言场景下的无缝切换与高效语义理解。

  3. 情感理解与表达
    利用思维链技术生成符合对话场景的情感全局表征,提升对话交流的真实感。

  4. 灵活拓展
    强大的对齐策略支持文本与音频模态的任意方式拼接融合,为集成大规模文本大模型中的多种增强机制(如联网搜索、RAG检索增强生成等)提供了统一且可扩展的接口。

应用场景

  1. 教育领域
    “交交”可以作为学习辅导工具,帮助学生完成从基础知识到复杂问题的解答。

  2. 医疗健康
    在医疗场景中,“交交”能够提供情感支持和健康咨询,提升患者的心理健康。

  3. 娱乐互动
    “交交”可以作为个性化娱乐伙伴,支持角色扮演和故事讲述。

  4. 企业协作
    在团队会议中,“交交”能够高效总结对话内容,提升协作效率。

性能测试与对比

在VoiceBench基准测试中,“交交”获得了79.05的平均分,仅次于OpenAI的GPT-4o模型,与GPT-4o-Audio的差距缩小到仅8%。在多语言测试中,“交交”在中英日法四种语言的表现均显著优于其他模型。

官方链接

总结

“交交”作为全球首个纯学术界自研的口语对话情感大模型,不仅在技术上实现了多项突破,还为智能语音交互领域带来了全新的可能性。它重新定义了人机交互的方式,让对话更加自然、智能、有趣,展现了学术界在科技创新中的无限潜力。

ai模型
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
619

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
637

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
543

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
592

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
583

Qwen-Image:阿里巴巴通义千问开源的首个图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队开源的首个图像生成基础模型,属于Qwen系列的重要成员。作为一个200亿参数的多模态扩散变换器(MMDiT)模型,它在复杂文本渲染和精确图像编...
2025-08-06 新闻资讯
550