Home
本频道
全频道
🔍
科技圈🎗在花频道📮
← 返回
Tuesday, August 12, 2025 8:18 AM
GPT-5编程测试被曝"作弊":自删23道题目美化成绩
有开发者发现,OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试,但实际只用了477个问题,自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标,而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算,GPT-5的实际得分将低于Claude Opus 4.1,目前两者仅有0.4%的微弱差距。
新浪科技
🍀
频道
🍵
茶馆
📮
投稿
来自频道:
@zaihuapd
复制
Markdown
HTML
纯文本
分享
Loading comments...
⚠️
评论区加载失败
可能原因:
浏览器广告拦截器阻止了 Telegram widget
网络连接问题
解决方法:
临时禁用广告拦截器(如 AdBlock、uBlock Origin)
或将本站添加到广告拦截器的白名单
或直接访问
Telegram 查看评论
Home
Links
About
ALL-RSS
本频道
全频道
🔍
Powered by
Multi-Channel Fork
inspired by BroadcastChannel
⚠️ 评论区加载失败
可能原因:
- 浏览器广告拦截器阻止了 Telegram widget
- 网络连接问题
解决方法: