首页 资讯 通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

3月27日消息,阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。

该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

据介绍,Qwen2.5-Omni采用Thinker-Talker双核架构。

其中,Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。

而Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通
声明: 1.本站大部分内容均收集于网络!若内容若侵犯到您的权益,请发送邮件至:257218569@qq.com,我们将第一时间处理! 2.所有资源仅限于参考和学习,版权归原作者所有。
广告位
上一篇
下一篇

为您推荐

联系我们

联系我们

QQ:257218569

在线咨询: QQ交谈

邮箱: 257218569@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部