阿里通义千问发布最新视觉推理模型 QVQ-Max

2025年3月28日凌晨，阿里巴巴通义千问团队悄然上线新一代视觉推理模型QVQ-Max。这款模型聚焦于解决传统AI“看得见但想不通”的痛点，通过深度融合视觉理解与逻辑推理能力，为多模态任务处理提供了新思路。

QVQ-Max的核心能力体现在三个方面：细致观察、深入推理和灵活应用。它能精准识别图像中的细节元素，例如从一张随手拍摄的衣柜照片中提取衣物款式、颜色，甚至标签上的文字信息；在解析一道几何题时，不仅能标注图形中的隐藏辅助线，还能生成多种解题路径。更值得注意的是，模型可将手绘流程图转化为可调试的代码框架，或将设计草图完善为3D模型文件，并附带材料成本估算表。

目前，用户可通过Qwen Chat平台体验该功能。上传图片或视频后点击“Thinking”按钮，QVQ-Max即可结合场景背景进行推理，例如根据火灾现场照片推断火势蔓延方向，或基于食谱图片指导烹饪步骤。阿里巴巴表示，该模型已在淘宝商品质检系统中应用，检测效率提升40%，未来还将持续优化功能边界。

对于开发者，QVQ-Max开放API密钥申请，教育及科研机构可享每月50万token免费额度。这场深夜发布的“技术突袭”，正悄然重构人机协作的认知维度。

点击扫码分享至微信

阿里通义千问发布最新视觉推理模型 QVQ-Max

相关文章

宝马上车阿里大模型，奥迪用上华为智驾，BBA纷纷换上“中国脑”

马拉松职业“私兔”最高月入4万从熟人搭子到有偿服务

中国大模型开源浪潮：通义千问全球下载量突破2亿，开源生态加速崛起

阿里通义千问发布最新视觉推理模型 QVQ-Max

相关文章

宝马上车阿里大模型，奥迪用上华为智驾，BBA纷纷换上“中国脑”

马拉松职业“私兔”最高月入4万 从熟人搭子到有偿服务

中国大模型开源浪潮：通义千问全球下载量突破2亿，开源生态加速崛起

马拉松职业“私兔”最高月入4万从熟人搭子到有偿服务