新快报讯 1月8日,在阿里云通义智能硬件展上,阿里云正式发布多模态交互开发套件,全面集成通义千问、万相、百聆三款基础大模型,旨在推动硬件设备向“能听、会看、会思考、可交互”的下一代智能形态演进。同日,阿里云与国内人形机器人领军企业乐聚机器人签署全栈AI合作协议,双方将基于阿里云算力、AI平台及千问大模型,共同推进人形机器人训练场建设与具身智能解决方案的研发与落地。这两大动作标志着阿里云在“AI+硬件”与“AI+机器人”双赛道进入规模化落地新阶段。
据介绍,阿里云此次发布的多模态交互开发套件,集成了通义千问(语言)、万相(视觉)、百聆(语音)三款模型,并预置了涵盖生活休闲、工作效率等领域的十余款Agent与MCP工具,支持全双工语音、视频、图文等多模态交互方式。在关键的性能指标上,其端到端语音交互时延可低至1秒,视频交互时延低于1.5秒,为实时交互场景提供技术保障。
在芯片兼容性方面,该套件已适配超过30款主流的ARM、RISC-V和MIPS架构终端芯片平台,覆盖市面上绝大多数硬件设备,支持快速接入与部署。阿里云透露,未来通义大模型还将与玄铁RISC-V进行软硬全链路协同优化,实现在RISC-V架构上的高效部署与推理加速。
除了基础模型,阿里云还针对AI硬件交互场景推出了专有优化模型,并结合预置的MCP工具与Agent,覆盖出行规划、知识问答、娱乐互动、教育辅导等多种场景。例如,出行规划Agent可一键调用路线规划、旅行攻略及本地生活服务。该套件还接入阿里云百炼平台生态,支持开发者自定义或引入第三方Agent与MCP,极大拓展了硬件应用的场景边界。
展会上,阿里云演示了多模态交互套件在智能穿戴、陪伴机器人、具身智能等领域的落地案例。在AI眼镜场景中,基于千问VL视觉语言模型与百聆CosyVoice语音模型,阿里云构建了涵盖感知、规划、执行与长期记忆的完整交互链路,实现同声传译、拍照翻译、多模态备忘录及录音转写等功能,显著提升了交互自然度与应答准确率。
在家庭陪伴机器人场景,结合千问模型与多模态套件,机器人不仅能实时监测家庭异常状况并推送告警,还支持用户通过关键词检索定位历史视频内容,实现自然对话交互与设备控制。这些案例显示,阿里云正通过软硬一体、场景驱动的方案,助力硬件企业快速构建具备复杂交互能力的智能产品。
同日,阿里云与乐聚机器人宣布达成全栈AI合作。根据合作协议,双方将围绕“算力+AI平台+大模型”展开全栈合作,共同优化人形机器人训练场的“数据采集—训练—部署”全链路流程,探索“具身大脑+本体+小脑”技术融合新路径,并逐步推动具身智能解决方案在工业、科研、商服、家庭等多元场景的规模化落地。
乐聚机器人作为国内少数实现人形机器人自主研发与批量交付的企业,已推出AELOS(小型)、ROBAN(中型)、KUAVO(大型)等系列产品,覆盖工业制造、商业服务与科研教育三大场景。目前,乐聚新版展厅机器人已接入通义千问大模型。接入后,机器人在语音交互、知识库问答与实时对话等场景中,表现出更快的响应速度、更高的答案准确率与更自然的互动体验。
阿里云在生成式AI领域的持续投入已获国际权威机构认可。根据Gartner发布的GenAI技术创新指南系列报告,阿里云在GenAI云基础设施、GenAI工程、GenAI模型及AI知识管理应用四大维度均位列“新兴领导者”象限,成为亚太地区唯一入选全部四项的厂商,与国际巨头谷歌、OpenAI并驾齐驱。
