美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)评估显示,中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月。在 CAISI 选取的基准中,其 Elo 得分 800,低于 GPT-5.5(999)和 Opus 4.6(800),与 GPT-5.4 mini(749)相近。尤其在 ARC-AGI-2、PortBench 和 CTF-Archive-Diamond 等代理与推理测试上表现较弱。但成本方面,与相近能力的 GPT-5.4 mini 相比,DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低。
NIST
🌸 在花频道 · 茶馆讨论 · 投稿通道
来自频道: @zaihuapd
⚠️ 评论区加载失败
可能原因:
- 浏览器广告拦截器阻止了 Telegram widget
- 网络连接问题
解决方法: