科技财经观察2025年10月15日 13:48消息,阿里通义Qwen3-VL系列新增4B与8B模型,性能超越GPT-5 Nano,全面开源。
10月15日,阿里通义正式宣布推出Qwen3-VL系列的全新成员——采用Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型,并已开源上线。
Qwen3-VL-4B/8B是一款采用密集(Dense)架构的视觉理解模型,相比同类产品,其显存占用更少,同时保留了Qwen3-VL的所有核心能力。该系列模型根据不同需求提供了Instruct和Thinking两种版本,满足多样化的使用场景。 从技术角度来看,Qwen3-VL-4B/8B在保证性能的同时优化了资源消耗,体现了模型设计上的高效性。这种改进不仅有助于提升实际应用中的部署灵活性,也为更多用户降低了使用门槛。在当前大模型不断演进的背景下,这种兼顾性能与效率的设计思路值得肯定。
Qwen3-VL-8B 在 STEM、VQA、OCR、视频理解和 Agent 任务等公开评测上表现优异,不仅超越 Gemini 2.5 Flash Lite 和 GPT-5 Nano,甚至可以媲美上一代超大尺寸模型 Qwen2.5-VL-72B。
而 4B 版本则在端侧展现更高的性价比,适合在需要 AI 视觉理解的智能终端部署。
值得一提的是,这两款视觉理解模型在“视觉精准”与“文本稳健”方面实现了协同提升:针对小模型普遍存在的“跷跷板”问题(即提升视觉能力通常会牺牲文本性能,反之亦然),阿里通过架构创新和技术创新,使模型在保持文本理解能力的基础上,进一步强化了多模态感知与视觉理解能力,让小巧的模型具备了更强的视觉与文本处理能力。
新模型已在魔搭社区和HuggingFace平台上线,并推出了FP8版本,方便用户更高效地进行部署与使用。开源代码已公开,具体地址如下: 该模型的发布为开发者提供了更多选择,尤其FP8版本在降低计算资源消耗的同时保持了较高的性能,有助于推动模型在边缘设备或资源受限环境中的应用。这一进展体现了开源社区在AI技术普及与优化方面的持续努力。
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe