研究显示大模型在多轮对话中性能大幅下降， GPT-5 等前沿模型准确率损失达 33%最新研究表明，大型语言模型（ LLMs ）在多轮对话中的表现远逊于单次指令设置，平均性能降幅达 39%

研究显示大模型在多轮对话中性能大幅下降， GPT-5 等前沿模型准确率损失达 33%

最新研究表明，大型语言模型（ LLMs ）在多轮对话中的表现远逊于单次指令设置，平均性能降幅达 39%。即便以 GPT-5 为代表的前沿模型，在处理跨多轮消息的任务时，准确率损失仍高达 33%。研究发现模型往往在对话早期做出错误假设且难以自我修复，导致其在复杂交互中“迷失”。

尽管 Python 等特定任务的表现略好，但降低采样温度等技术手段并不能有效解决该问题。研究人员建议，当对话偏离预期时，用户应通过总结此前需求并开启新对话的方式来重置模型状态。目前，多轮对话的可靠性仍是制约前沿模型实际应用的主要瓶颈。

arXiv | THE-DECODER

🍀在花频道 🍵茶馆聊天 📮投稿