研究显示大模型在多轮对话中性能大幅下降, GPT-5 等前沿模型准确率损失达 33%

最新研究表明,大型语言模型( LLMs )在多轮对话中的表现远逊于单次指令设置,平均性能降幅达 39%。即便以 GPT-5 为代表的前沿模型,在处理跨多轮消息的任务时,准确率损失仍高达 33%。研究发现模型往往在对话早期做出错误假设且难以自我修复,导致其在复杂交互中“迷失”。

尽管 Python 等特定任务的表现略好,但降低采样温度等技术手段并不能有效解决该问题。研究人员建议,当对话偏离预期时,用户应通过总结此前需求并开启新对话的方式来重置模型状态。目前,多轮对话的可靠性仍是制约前沿模型实际应用的主要瓶颈。

arXiv | THE-DECODER

🍀在花频道 🍵茶馆聊天 📮投稿
来自频道: @zaihuapd
Loading comments...