深度搜索 V3.2 开源模型 深度搜索-v3-2-打开-源-模型 对标 GPT‑5
深度搜索 的全新产品线由一款“日常主力”模型 深度搜索‑V3.2 和一款高算力变体 深度搜索‑V3.2‑特别 组成,两者都被定位为面向复杂问题求解、智能体与工具驱动工作流的“推理优先”系统。公司表示,V3.2 在通用任务上的表现可达 GPT‑5 水平,而 特别 模型则经过专门调优,以在高强度推理和数学基准测试中达到或超越 双子座 3 专业版。
V3.2 现已成为 深度搜索 网页端、移动应用以及主力 应用程序接口 背后的默认引擎,取代了 9 月下旬发布的试验性模型 V3.2‑Exp。相比之下,特别 变体只能通过一个临时的高算力 应用程序接口 端点访问,被定位为“评估专用”模型,将开放至 12 月中旬,以便 深度搜索 评估市场需求和基础设施压力。
基准测试与技术进展
在多项重量级基准测试中,据称 V3.2 在数学、编程和智能体任务上的表现已逼近 GPT‑5 和 双子座 3 专业版,有时甚至在软件工程和终端交互类评测中反超。于 美国数学邀请赛 2025 数学测试中,V3.2 的得分据称仅比 GPT‑5 落后一两分;在多项真实世界的编码与调试测试中,它也能追平乃至超越多款 GPT 系列模型,尽管在部分综合榜单上 双子座 3 专业版 仍然占优。
在架构层面,这一新一代模型延续了 V3 系列的稀疏注意力设计,即 深度搜索 Sparse Attention(DSA),旨在在保持长上下文性能的同时,将超长输入场景下的计算成本大致削减一半,相比传统的致密注意力更加高效。V3.2 支持约 128,000 个 token 的上下文窗口,支持诸如多文档研究、大型代码库推理以及长周期智能体工作流等场景,而这些场景通常需要成本更高的闭源模型来支撑。
开源发布与成本优势
与众多顶级竞品不同,深度搜索 将 V3.2 以开源模型的形式发布,延续了这家中国初创公司在独立开发者与企业用户中迅速走红的核心战略。模型权重与技术细节通过开放代码库和合作平台分发,使第三方能够在支持的前提下自托管、微调并将模型集成进自身技术栈,而无需完全依赖单一厂商。
与此同时,深度搜索 在托管 应用程序接口 定价上大幅压低了美国竞争对手的价格,将 V3.2 定位为一款可用于生产环境的替代方案,在提供接近 GPT‑5 能力的同时,仅收取头部闭源模型一小部分的每 token 费用。分析人士指出,这种将开放授权与低运营成本相结合的模式,尤其适合那些受监管压力、数据主权要求或预算约束影响、难以完全依赖美国闭源平台的市场。
开发者能获得什么,又会失去什么
对开发者而言,V3.2 被定位为通用型“主力模型”:它支持工具调用、函数调用以及面向链式思维推理的“思考模式”,可与工具结合,适用于智能体、智能助手和各类实时应用。相比之下,特别 变体关闭了工具调用能力,将所有可用算力集中在纯粹的推理质量上,因此在数学和逻辑任务上表现更强,但代价是 token 消耗和响应时延约为普通模型的 2–3 倍。
当然,这也带来了权衡:现有报告指出,在超长序列场景下,特别 的 token 利用效率仍落后于 双子座 3 专业版,两款模型的上下文上限也都约为 128K,这对最激进的智能体工作流来说依然可能构成限制。深度搜索 还表示,特别 的临时端点将在 12 月 15 日后关闭,其长期开放与否,将取决于这一早期测试期内的基础设施成本与社区反馈。
AI 竞赛进入新阶段
V3.2 的发布标志着 深度搜索 从一个小众开源挑战者——其最知名产品为 R1 推理模型——快速跃升为公开对标 打开人工智能 与 谷歌 等头部实验室的公司。行业观察人士认为,此举凸显出包括中国团队在内的开源力量,正在原始能力和真实场景可靠性方面迅速缩小与美国闭源实验室之间的差距。
如果 V3.2 的性能宣称能够在更广泛的生产环境中经受住考验,这些模型有望重塑初创公司、企业乃至监管机构对于“开放性—成本—最前沿能力”三者之间取舍的认知——在本质上提供了无需被封闭生态锁定、却具备 GPT‑5 级推理能力的选项。就当前而言,这一发布已清晰地传递出一个信号:将前沿级 AI 与少数西方专有系统画上等号的时代,正在迅速走向终结。
