两秒延迟!AI语言翻译系统Seamless实现跨语言交流突破

站长之家 2023-12-01 10:28:57新闻资讯
284

在我们日益互联的世界中,语言差异可能成为沟通的障碍。Seamless作为新一代AI语言翻译系统,通过SeamlessExpressive和SeamlessStreaming模型的首次发布,为实时、跨语言交流带来了全新的突破。

Seamless.png

SeamlessExpressive是专注于语音到语音翻译的表达保留模型,而SeamlessStreaming则是一种流式翻译模型,以约两秒的延迟提供最先进的结果。这两个模型都基于SeamlessM4T v2,这是在8月份发布的基础模型的最新版本,展现了在自动语音识别、语音到文本、文本到语音等方面的性能提升。

Seamless2.png

与以往在表达性语音研究方面的努力相比,SeamlessExpressive更加关注韵律的某些未被充分探索的方面,例如语速和节奏停顿,同时保留情感和风格。该模型目前在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保留了这些元素。

SeamlessStreaming的突破性在于实现了与说不同语言的人实时对话。与传统系统在说话者完成句子后进行翻译不同,SeamlessStreaming在说话者仍在说话时进行翻译,使得对话更接近实时。该模型支持近100种输入输出语言的自动语音识别和语音转文本,以及近100种输入语言和36种输出语言的语音到语音翻译。

除了模型本身,Seamless还在今天发布了metadata、数据和数据对齐工具,旨在帮助研究社区收集更多的翻译数据。这包括SeamlessAlign的扩展元数据,涵盖额外115,000小时的语音和文本对齐,以及SeamlessAlignExpressive的元数据,作为表达性焦点版本的数据集。此外,还提供了mExpresso的翻译文本数据,这是Expresso的多语言平行扩展,以及用于收集更多翻译数据的工具。

Seamless作为新一代AI语言翻译系统,在实现表达保留和流式处理方面取得了重要进展,为跨语言交流提供了更加自然和真实的体验。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Cosmos-Predict2:英伟达NVIDIA开源的物理AI世界基础模型
Cosmos-Predict2是英伟达NVIDIA开源的物理AI世界基础模型(World Foundation Model),作为Cosmos平台的核心组件之一,其革命性突破在于融合扩散模型与自回归架构,实现了从多模...
2025-06-16 新闻资讯
230

ZeroSearch:阿里通义开源的大模型搜索能力强化框架
ZeroSearch是阿里巴巴通义实验室开源的大模型搜索能力强化框架,旨在通过模拟搜索引擎的方式激发大型语言模型(LLM)的搜索能力,而无需依赖真实搜索引擎的API调用。作为当前最...
2025-06-16 新闻资讯
221

Hunyuan3D-2.1:全链路开源工业级3D生成大模型与PBR材质合成系统
Hunyuan3D-2.1是腾讯混元团队全链路开源的工业级3D生成大模型,作为当前最先进的AI驱动3D内容创作框架,其核心突破在于首次将PBR(基于物理的渲染)材质生成技术与几何-纹理解...
2025-06-16 新闻资讯
244

SeedVR2:字节跳动与南洋理工大学联合开发的开源视频修复框架
SeedVR2是由字节跳动Seed团队与南洋理工大学联合开发的开源视频修复框架,作为当前最具突破性的视频增强技术之一,其核心创新在于通过扩散对抗后训练(Diffusion Adversarial ...
2025-06-14 新闻资讯
231

Next-Frame Diffusion:微软与北大联合开发的开源自回归视频生成框架
Next-Frame Diffusion(NFD)是由微软研究院与北京大学联合开发的开源自回归视频生成框架,作为当前最具突破性的实时交互式视频生成技术之一,其核心创新在于通过块状因果注意...
2025-06-14 新闻资讯
236

LLIA:美团开源的低延时音频驱动肖像视频生成框架
LLIA(Low Latency Interactive Avatar)是由美团技术团队开发并开源的音频驱动肖像视频生成框架,作为当前最具突破性的实时虚拟形象生成技术之一,其核心创新在于将扩散模型...
2025-06-14 新闻资讯
233