🤖 美国 CAISI 发布 DeepSeek V4 Pro 评估报告，称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月美国国家标准与技术研究院（NIST）下属人工智能标准与创新中心（CAISI）评估显示，中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月

科技圈🎗在花频道📮

🤖 DeepSeek-V4 的预览版本正式上线并同步开源，极其便宜大碗且适配 Agent 相比前代模型，DeepSeek-V4-Pro 的 Agent 能力显著增强。在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，追及「御三家」模型能力。 DeepSeek-V4-Flash 展现出了接近高级模型的的推理能力与 Agent 能力（适合日常龙虾等服务）。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。 DeepSeek…

🤖

美国 CAISI 发布 DeepSeek V4 Pro 评估报告，称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月

美国国家标准与技术研究院（NIST）下属人工智能标准与创新中心（CAISI）评估显示，中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月。在 CAISI 选取的基准中，其 Elo 得分 800，低于 GPT-5.5(999)和 Opus 4.6(800)，与 GPT-5.4 mini(749)相近。尤其在 ARC-AGI-2、PortBench 和 CTF-Archive-Diamond 等代理与推理测试上表现较弱。但成本方面，与相近能力的 GPT-5.4 mini 相比，DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低。

NIST

🌸 在花频道 · 茶馆讨论 · 投稿通道