DeepSeek-R1是幻方量化旗下的AI公司深度求索(DeepSeek)研发的推理模型。该模型采用强化学习进行后训练,旨在提升推理能力,尤其擅长数学、代码和自然语言推理等复杂任务。模型背景和功能。DeepSeek-R1是基于R1-Zero的增强版本,采用了修改后的训练工作流程开发。R1-Zero是通过纯强化学习训练的,而R1则在R1-Zero的基础上,利用少量人工标注的高质量数据进行冷启动微调,然后再进行纯强化学习训练34。这种训练方式使得R1在推理能力上表现出色,能够在仅有极少标注数据的情况下显著提升其推理能力。