2025-06-18发表2025-10-11更新 Ye Lihu AI2 分钟读完 (大约320个字)

「AI观察」旧瓶如何装新酒，如何提升Qwen3/Deepseek-R1等Reasoning模型在老Prompt上的性能表现？

传统的非Reasoning模型的Prompt或许在Reasoning模型Qwen3/Deepseek-R1上表现不佳，比如，你需要如何修改呢？

TRICK：prompt里面加入COT的trick，要求他think step by step，通过这种方式拉长模型的时间。因为思考的时间和内容越多，越能在正确的方向上激活模型更多的相关参数，对于答案质量的帮助是绝对地清晰可见。
BUDGET：拉长思考时间在Qwen3上面可以增加thinking_budget。在Claude的模型产品上应该也有类似的设计。根据Qwen团队的官方技术报告，大部分场景在8k、32k token的时候评测分数会明显到达一个峰值。建议Qwen3设置在4-8K这个区间，最好是8K，再往后会有个平缓的边际效益发生（但是再往后又会有一个小突破）

总结：维护好prompt很重要，注意区分Reasoning和非Reasoning模型在同一份Prompt上的表现差异，可以使用类似promptpilot的产品去评测和维护。

「AI观察」旧瓶如何装新酒，如何提升Qwen3/Deepseek-R1等Reasoning模型在老Prompt上的性能表现？

https://yelihu.github.io/2025/06/18/如何提升类似Qwen3_Deepseek-R1等Reasoning模型的性能表现？/

作者

Ye Lihu

发布于

2025-06-18

更新于

2025-10-11

许可协议

#AI Prompt Engineering Qwen3 Deepseek-R1

爱发电支付宝

送我杯咖啡微信