最新研究揭示 DeepSeek/o3 弱点:思路切换频繁,最短答案或为正解
发布时间:2025-02-03 11:57:58来源:
近日,一项来自腾讯 AI 实验室、苏州大学和上海交通大学的联合研究,揭示了 DeepSeek 和 o1/o3 这类推理大模型存在的显著弱点。在面对高难度问题时,这些模型就像 “三心二意的学生”,解题思路切换频繁,缺乏深入探索,最终导致解题失败,研究人员将这一现象命名为 “欠思考”(Underthinking)。
研究团队重点分析了开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。通过对 AI 错误答案的分析,发现当前的推理大模型常常在思考初期就找到了正确方向,然而却 “浅尝辄止”,很快就转而探索其他思路。这使得后续生成的数千个 token 对解决问题毫无帮助,不仅白白浪费了计算资源,还大幅降低了答案的正确率。
在解决数学竞赛题等复杂任务时,这种现象尤为突出。为了系统分析,研究团队在 math500、gpqadiamond 和 aime2024 这三个具有挑战性的测试集上,对类 o1 模型 qwq - 32b-preview、deepseek-r1-671b 等进行了实验。结果显示,在错误回答中,类 o1 模型消耗的 token 量比正确回答时多了 225%,原因是思维切换频率增加了 418% 。
为深入剖析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否足以推导出正确答案。观察发现,许多模型在回答开头阶段思路正确,但却没有继续深入完成推理。在超过 70% 的错误回答中,至少存在一条被放弃的、本可推导出正确答案的推理路径。
此外,研究还发现一个有趣的现象:在某些情况下,模型给出的最短答案往往就是正确的。这表明模型在推理过程中,可能过早地放弃了原本正确且简洁的解题思路,反而陷入了复杂且错误的推导过程。
随着 AI 技术的广泛应用,大模型的性能和准确性至关重要。此次研究揭示的 DeepSeek/o3 等模型的弱点,为 AI 研究人员和开发者提供了重要参考,有助于改进模型算法,提升模型在复杂任务中的表现。未来,如何让 AI 模型更加专注、深入地思考问题,避免频繁切换思路,将是 AI 领域需要攻克的重要课题。
(责编: admin1)
免责声明:网站作为信息内容发布平台,为非经营性网站,内容为用户上传,不代表本网站立场,不承担任何经济和法律责任。文章内容如涉及侵权请联系及时删除。