2025年3月28日凌晨,阿里巴巴通义千问团队悄然上线新一代视觉推理模型QVQ-Max。这款模型聚焦于解决传统AI“看得见但想不通”的痛点,通过深度融合视觉理解与逻辑推理能力,为多模态任务处理提供了新思路。

QVQ-Max的核心能力体现在三个方面:细致观察深入推理灵活应用。它能精准识别图像中的细节元素,例如从一张随手拍摄的衣柜照片中提取衣物款式、颜色,甚至标签上的文字信息;在解析一道几何题时,不仅能标注图形中的隐藏辅助线,还能生成多种解题路径。更值得注意的是,模型可将手绘流程图转化为可调试的代码框架,或将设计草图完善为3D模型文件,并附带材料成本估算表。

目前,用户可通过Qwen Chat平台体验该功能。上传图片或视频后点击“Thinking”按钮,QVQ-Max即可结合场景背景进行推理,例如根据火灾现场照片推断火势蔓延方向,或基于食谱图片指导烹饪步骤。阿里巴巴表示,该模型已在淘宝商品质检系统中应用,检测效率提升40%,未来还将持续优化功能边界。

对于开发者,QVQ-Max开放API密钥申请,教育及科研机构可享每月50万token免费额度。这场深夜发布的“技术突袭”,正悄然重构人机协作的认知维度。

点击扫码分享至微信