——原文于2025年3月1日发布在《IMLIP多语种智能信息处理》微信公众号
——论文于2025年2月28日刊发在《中国人工智能学号通讯》第15卷2025年第2期
DeepSeek启示:可信可控可用的大模型未来之路
文/崔文耀,李林翰,林子超,王一诺,曹哲俊,张华平
摘要
受DeepSeek系列模型的成功实践启发,本文系统探讨了可信、可控、可用大模型的核心技术路径与未来发展方向。通过解析DeepSeek在模型架构与训练范式上的创新突破,包括MLA机制、GRPO算法等,揭示其在提升推理效率方面的显著优势。实验表明,DeepSeek-R1通过纯强化学习范式与规则奖励机制,在数学推理任务中实现71%的pass@1准确率,并在LMSYS竞技场开源模型中位列前五;其蒸馏模型仅以14B参数即超越部分70B级模型性能,验证了轻量化部署的可行性。此外进一步提出基于自我一致性评判的奖励机制,通过内化思维方法与组内约束优化,在ChatBIT轻量模型中实现了模型奖励推理过程透明化与自我一致性,实验表明1.5B的ChatBIT模型仅需训练1500步即可很好地完成自我一致性的评判任务,这也为构建可信可控可用的大模型点亮了一条未来之路。
关键词
DeepSeek、ChatBIT、大模型、推理、GRPO、强化学习
0 引言
近年来,随着大规模预训练模型在自然语言处理和人工智能领域的不断突破,如何在确保模型性能不断提升的同时,实现可信、可控、可用已成为亟待解决的重要课题。DeepSeek系列模型作为中国人工智能创新发展的重要代表(见表1),以其经济高效的设计理念和卓越的技术表现,标志着大模型发展进入了一个全新的阶段。
2025年,DeepSeek-R1模型在DeepSeek-V3的坚实基座上,通过大规模强化学习对长思维链推理任务进行针对性优化,使得在推理领域的准确性实现了显著飞跃,并在LMSYS大模型竞技场中名列前茅(见表2)。DeepSeek系列模型的成功,不仅展示了在模型架构、训练流程和推理策略上的多维创新,更为大模型在可信、可控、可用三个维度的发展提供了宝贵启示。
本文将围绕DeepSeek系列模型的技术基础,系统地解析其在实现高性能的同时兼顾经济性与稳定性方面的关键技术突破,并从可信性、可控性和可用性三个维度探讨大模型未来的发展方向。同时,结合北京理工大学的ChatBIT在应对复杂推理任务与奖励机制优化方面的实践经验,进一步剖析如何通过内化思维方法和自我一致性评判来提升模型推理质量,为构建更轻量化、可控的大模型提供实践样本和理论支持。
阶段 | 预训练 | 扩展上下文 | 微调 | 总计 |
GPU/小时 | 2664 | 119 | 5 | 2788 |
成本/百万美元 | 5.328 | 0.24 | 0.01 | 5.576 |
开源排名 | 1 | 2 | 3 | 4 | 5 |
整体排名 | 5 | 10 | 18 | 22 | 23 |
模型 | DeepSeek-R1 | DeepSeek-V3 | Deepseek-v2.5-1210 | Athene-v2-Chat-72B | Llama-3.1-Nemotron-70B-Instruct |
得分 | 1361 | 1317 | 1279 | 1275 | 1268 |
1 DeepSeek模型创新简介
1.1 模型架构创新
2024 年 5 月发布的 DeepSeek-V2 首次提出了MLA机制。在传统多头自注意力(MHA)的基础上,MLA 引入了显式的“潜在向量”,在每个注意力头内分别完成子空间的投影和聚合。此举不仅保留了多头机制的并行计算优势,还能极大地压缩 KVCache 对显存和其他计算资源的需求,同时保持了模型对输入数据的复杂关系的捕捉能力。与传统的 MHA、MQA(multi query attention)和 GQA(group query attention)相比,MLA 在基本不损失性能的前提下,实现了对大模型长文本推理资源消耗的有效降低,如图1所示。

在 DeepSeek-V2 中,研究者进一步改进了MoE,通过引入一种辅助损失,能够在训练阶段实现多个“专家”的动态路由分配,以确保各个专家在批处理中的负载平衡,避免个别专家成为“瓶颈”或“闲置”,在保证各专家参数不随意膨胀的前提下,充分利用并行计算与稀疏激活,节省计算开销并提高模型的推理速度。2024 年 12 月发布的 DeepSeek-V3 在继承 DeepSeek-V2 的 MoE 框架之上,进一步提出了无辅助损失的专家负载均衡策略。在 DeepSeek-V2 中,虽然辅助损失能够有效指导专家路由的平衡分配,但在某些场景下可能引入额外优化目标的冲突。DeepSeek-V3通过引入动态路由与无损耗负载均衡策略,将专家路由本身嵌入到主损失的梯度更新之中,避免额外辅助损失的引入,同时保持多专家在大批量输入时的高效分配。每个 Token 激活 673 B 参数,总计 37 B 参数(约占整体参数的 5.5%),极大地提高了模型的计算效率。除此之外多DeepSeek还引入了Token预测机制及FP8 混合精度训练与DualPipe进一步提高了模型的计算效率。
1.2 推理优化创新
1.2.1 GRPO 算法
在强化学习在大语言模型后训练阶段的应用中,主流方法(如 PPO)虽然已经取得了良好的对齐与性能增益,但往往需要额外的价值网络(value network)来进行策略评估,从而增加了模型规模与训练复杂度。DeepSeek于2024 年 2 月在DeepSeek Math中首次提出组内相对策略优化GRPO算法,旨在减少对于庞大 Critic 模型的依赖并提升训练效率。
GRPO 的核心思路如下所示。
(1)群组相对优势估计。在对同一输入进行多次采样后,将输出结果组合成为一个小的群组,通过比较群组内部各个输出的优劣来估算相对优势值(advantage)。
(2)策略目标函数重构。将群组内部的相对优势而非单个样本的绝对价值纳入强化学习目标,在每个训练迭代中直接对策略网络进行更新,避免在大模型规模下重复训练一个等规模的 Critic 网络。
(3)奖励信号分发。在数学推理等可验证场景下,通过题目答案的正误或解题步骤的正确与否来给出稀疏但准确的奖励信号;群组内部的排名既提供了相对奖励,也避免了奖励模型可能出现的奖励骇入(reward hacking)问题。
引入 GRPO 后,DeepSeek Math 在数学推理领域的表现显著提升,部分结果接近 GPT-4 在同类任务上的表现,并同时超越了众多开源模型。这一成绩不仅佐证了强化学习后训练在大模型推理能力提升中的有效性,也为后续 DeepSeek 系列(如 DeepSeek-R1)进一步扩展到更复杂推理任务奠定了算法基础。
1.2.2 DeepSeek-R1-Zero的激进实验及R1的工程化改进
2025 年初发布的 DeepSeek-R1 模型在 DeepSeek-V3 的基座上,通过大规模强化学习专门针对长思维链的推理任务进行了强化,从而显著提升了在 STEM (科学、技术、工程、数学)领域的推理准确性。在深度知识问答或复杂数学推理场景下,通常需要多步的逻辑推断和反思,传统自回归模型易出现中途错误难以修正的问题。DeepSeek-R1-Zero及DeepSeek-R1继承了 DeepSeek Math 中提出的 GRPO 思路,结合高质量的规则化奖励(如准确率与格式奖励),鼓励模型在试错与探索中自主拉长“思考链”,并具备自我检查与修正能力。表3示出这两个模型的对比结果。
维度 | 训练起点 | 数据依赖 | RL算法 | 核心优势 |
DeepSeek-R1-Zero | 直接基于V3基础模型启动RL | 零SFT数据,仅依赖规则奖励 | GRPO,无需Critic网络 | 自我进化潜力强,推理能力接近顶尖模型 |
DeepSeek-R1 | 冷启动数据微调V3后启动RL | 引入数千条高质量CoT数据优化可读性 | 继承GRPO,增加多阶段奖励函数 | 可读性、通用性、稳定性显著提升 |
纯RL训练范式 DeepSeek-R1-Zero完全跳过传统监督微调(SFT),直接基于DeepSeek-V3基础模型进行大规模强化学习,依赖规则奖励系统(如准确性奖励和格式奖励)驱动模型进化。这种设计验证了“RL is all you need”的可能性,在数学推理任务(如AIME 2024)中,其pass@1分数从15.6%跃升至71.0%,接近OpenAI-o1-0912水平。
涌现的自我反思能力 模型在训练中自发表现出延长思维链、重评解题思路、主动修正错误等行为,被称为“aha顿悟时刻”。例如,在ARC-AGI-1测试中,DeepSeek-R1-Zero展现出高度连贯的反思逻辑,部分任务得分与R1仅相差1.8%。
为解决DeepSeek-R1-Zero的可读性差和语言混杂问题,R1引入冷启动阶段——通过少量人工优选的长思维链(CoT)数据微调基础模型,作为RL训练的稳定起点。后续分四阶段优化:冷启动→推理导向RL→通用能力强化→拒绝采样微调,逐步提升模型的多任务适应性。新增奖励函数惩罚语言混合(如中英文混杂输出)的语言一致性机制,并通过格式规范提升结果可读性。
1.2.3 高效的R1蒸馏小模型
将模型蒸馏为更小、更高效的版本,可以更加便捷地在PC和手机等终端设备上部署。这些蒸馏模型需要较少的计算能力和内存,适合在资源受限的设备上实时应用。仅通过对DeepSeek-R1的输出进行蒸馏,就能让DeepSeek-R1-Distill-Qwen-7B在各方面的表现全面超越诸如GPT-4o-0513等非推理模型。DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview,而DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-70B在大多数基准上都显著优于o1-mini。上述结果充分展示了蒸馏方法所具有的强大潜力。
2 DeepSeek对大模型可信可控可用的启示
DeepSeek系列模型在大规模预训练语言模型领域的不断迭代,不仅在性能和效率上取得了显著突破,更为大模型系统在“可信”“可控”与“可用”这三个关键维度的发展指明了前行方向。下面从这三个角度展开深入探讨。
2.1 可信性:透明推理与高效验证
在大模型的实际应用中,可信性始终是研究者和应用者最为关注的核心问题。DeepSeek系列模型通过引入透明的思维链推理机制,成功实现了模型决策过程的可解释性和自我反思能力。具体而言,该系列模型在推理过程中不仅展示了逻辑推断的显式可阅读的内部思维链,而且经由GRPO训练出来的模型推理能力极强,每一步推理具有很高的合理性和准确性。显式思维链不仅有助于提升模型在复杂任务(如数学推理、代码生成和深度知识问答)中的表现,而且为模型输出提供了明确的解释路径,便于专家对模型决策进行追踪和验证。未来,大模型在保持高推理能力的同时,应继续朝向标准化的透明推理链构建方向发展,通过建立一整套可验证的推理标准和评价体系,例如类似lean4的形式化推理证明库,进一步增强系统的可信输出,满足实际应用中对安全、可控、可追溯决策过程的需求。
2.2 可控性:全流程开源与安全部署
可控性是确保大模型在实际应用中不会因黑箱效应而引发不可预期风险的关键。DeepSeek系列模型全系列开源策略为研究者和开发者提供了深入了解模型内部架构、训练方法及推理策略的机会,打破了闭源大模型例如ChatGPT等的不透明局面。模型参数的公开使得研究者可根据自身需求自行优化模型领域可控性,内网部署的应用场景则进一步强化了模型的可控性。在封闭安全的环境中运行大模型,可以有效防止外部恶意利用,同时在内部设定细致的权限管理和数据隔离机制,为模型的商业化和大规模部署提供了保障。未来的研究应在继续推动模型开源透明的同时,注重建立一套完备的内部监管和外部审计机制,确保大模型在各种应用环境下的可控、安全与稳定。
2.3 可用性:高性价比与轻量化部署
大模型的可用性不仅体现在其强大的推理能力上,更在于如何以更低的资源消耗和更高的性价比,实现广泛部署和普及应用。DeepSeek系列模型通过引入模型蒸馏技术,将原本参数庞大的模型知识浓缩为轻量化版本,如DeepSeek-R1的蒸馏小模型(从1.5B到70B),即便在参数规模大幅缩减的情况下,依然保持了接近甚至超越大型模型(例如ChatGPT o1 mini)的推理性能。这种技术突破大幅降低了硬件门槛,使得高性能大模型能够在PC、手机等资源受限的终端设备上实时运行,为各类应用场景(例如实时翻译、智能助手、边缘计算等)提供了强大的技术支持。同时,蒸馏技术不仅提升了模型的部署灵活性,也为企业降低了研发与维护成本,实现了经济性与实用性之间的最佳平衡。展望未来,大模型的发展需要更多聚焦于高性价比的轻量化设计,使得技术创新能够迅速转化为实际应用,推动人工智能普惠化的进程。
3 ChatBIT应对实践
ChatBIT明理对话大模型是一款面向军事情报领域的多语种可控轻量级大模型系统,由北京理工大学NLPIR实验室自主研发,支持包括军事情报问答、情报整合分析、辅助决策等针对军事情报的功能,支持藏语、蒙语等小语种,同时面向大众用户提供包括代码生成、智能文档写作、智能翻译在内的通用功能。本文在ChatBIT大模型平台上进行了实践验证。
在大语言模型的推理与优化过程中,奖励建模始终扮演着关键角色。然而,传统基于规则或预设奖励模板的奖励建模方法存在适用性有限及reward hacking问题,这在很大程度上制约了模型推理能力的进一步提升。为了解决这一困境,我们提出了一种基于自我一致性评判的大语言模型奖励机制:内化思维方法与鲁棒推理的自我优化,通过内化典型思维方法并实现鲁棒推理的自我优化,为大规模推理模型提供了一条全新的优化路径。
在当前的LRM(large reasoning models)应用中,诸如DeepSeek DeepSeek-R1-Zero所使用的规则奖励机制往往显得过于死板,主要存在三个局限性。① 格式与正确性的脱节。仅仅符合预定格式的回答并不必然代表推理过程的正确性,过分依赖格式化标准可能导致模型忽略核心逻辑。② 奖励模板适应性不足。由人工设定的奖励模板往往无法全面涵盖模型在多样化推理任务中所需要的灵活思考与多元化输出。③ 格式覆盖不全面。预设模板的刚性设计难以应对复杂问题情境中多变的推理需求,容易出现reward hacking现象,即模型为了迎合奖励标准而偏离真正合理的推理过程。因此有必要构建一种新的评判标准,该标准既能全面覆盖模型的思维空间,又能准确表征正确的思维方法,同时避免对模型推理过程进行硬性约束,从而实现更为稳健和灵活的奖励反馈。
为应对上述挑战,我们提出了一种基于自我一致性评判的大语言模型奖励机制,其核心思想在于内化典型思维方法,并利用大模型本身的评判能力对生成输出进行自我检测和优化。具体而言我们的方法包含:① 基础思维方法作为评判标准。我们选取了诸如backtracking(回溯)、abandoning a reasoning chain(放弃无效推理链)以及self-verification(自我验证)等典型思维方法,作为奖励模型的核心评判标准。通过引入这些人类常用的认知策略,模型能够在推理过程中学习并内化合理的思考路径,而不再依赖于人为设计的僵硬奖励规则。② 组内一致性约束。为确保模型在输出过程中保持自我一致性,我们引入了组内一致性约束机制。具体而言,对于同一问题,模型在多次生成输出时,其评价得分应尽可能保持一致。利用大模型作为评判者,对各次输出进行打分和比对,从而确保模型在自我评判过程中形成稳定而鲁棒的推理链。这种机制不仅有助于过滤出真正具备高质量推理逻辑的答案,也为模型在自我优化中提供了可靠的反馈信号。③ 引入格式化约束与奖励权重设计。结合DeepSeek-R1中GRPO提出的格式化约束手段,我们在奖励机制中加入了额外的格式要求。通过对输出进行格式化检测,确保生成内容在符合逻辑的同时,具备规范的表达结构。与此同时,根据问题的难易程度和任务复杂性,为各项奖励指标设定不同权重,精细化调控奖励分配,使得模型在面对不同难度问题时均能获得合理而有效的优化信号。④ 自我一致性评判模型的构建。我们采用当前能力较强的大型语言模型来充当自我一致性评判者,使得模型能够自主寻找和校正输出中的问题。具体做法是,在每次生成回答时,由大模型对输出内容进行自我评判,并依据其内在的一致性和逻辑性给予打分。通过这一过程,模型不仅获得了即时的反馈信息,还在反复强化学习中逐步优化自身的推理路径,提升整体推理质量。
在实际训练过程中,我们采用了1.5B参数的ChatBIT模型,并搜集ChatBIT、Qwen、Llama等模型的输出共计600K条数据。该数据集涵盖了丰富的推理任务场景,例如数学等,通过对数据中的多样化问题进行训练,使得模型在组内一致性检测和奖励反馈中逐步完善自身的推理体系,最终实现自我一致性评判与奖励建模的闭环优化(见图2)。

该奖励机制的创新主要体现在四个方面。① 自我寻找评判标准。不同于传统依赖人为设定的奖励模板,我们让模型自我发现和内化合理的评判标准,从而避免了奖励模板僵化的问题。② 自我一致性强化学习。通过引入组内一致性约束,利用大模型进行多次自我评判,有效缓解了reward hacking现象,使模型在追求奖励最优化时始终保持合理的推理链联。③ 合格式化与难度权重设计。在奖励机制中综合考虑输出格式与问题难度,通过动态调整奖励权重,实现了多维度的精细化控制,为复杂推理任务提供了更为精准的反馈信号。④ 自我进化的奖励模型构建。在自我一致性评判模型基础上,进一步训练出更为强大的奖励模型,使得推理模型与评判模型相互促进,形成协同进化的闭环体系。
未来,我们计划进一步融合两阶段学习策略,同时训练评判模型与推理模型,推动二者的协同进化。具体而言,可以探索在联合训练过程中如何更好地平衡自我一致性与外部格式约束,进一步提升模型在多任务、多场景下的自适应能力与鲁棒性。此外,还可考虑引入更多元化的认知方法作为评判依据,拓展奖励机制的覆盖范围,使其在更加复杂和多变的推理任务中保持稳定高效的性能。
4 结论与未来展望
本文深入探讨了DeepSeek系列模型与ChatBIT奖励机制在提升大规模语言模型的可信性、可控性和可用性方面的创新,并通过实际案例展示了推理链透明化、组内一致性约束及奖励自适应等方面的进展。然而,当前研究仍面临一些挑战。首先,模型在生成推理链时可能导致过度思考,增加冗余信息和错误累积,未来需探索精炼思维链的机制,以在保持必要推理透明性的同时提高效率。其次,基于数值的奖励机制存在局限,未来可考虑基于自然语言的奖励体系,以更好地捕捉推理中的语义与逻辑,避免reward hacking现象。与此同时,大模型在多模态推理方面的能力仍需加强,未来的研究应致力于实现跨模态信息融合,扩展模型的应用边界,特别是在视觉、音频等信息交叉的复杂场景中。最后,强化学习的效率亟待提高,开发更高效的算法和反馈机制,将有助于推动大模型在复杂任务中的自我优化和高效应用,为大规模推理任务的落地应用提供更坚实的技术保障。
(参考文献略)

崔文耀
北京理工大学计算机学院博士研究生。主要研究方向为LLM、AI For Science。

李林翰
北京理工大学计算机学院硕士研究生。主要研究方向为自然语言处理、AI For Math。

林子超
北京理工大学计算机学院硕士研究生。主要研究方向为自然语言处理,大语言模型。

王一诺
北京理工大学计算机科学与技术2023级研究生,研究方向为自然语言处理。

曹哲俊(Zhejun Cao)
北京理工大学计算机技术专业NLPIR实验室博士研究生,研究方向为大模型与人工智能安全。

张华平
北京理工大学计算机学院特聘教授,国家级领军人才。主要研究方向为自然语言处理、大模型、智能情报分析与数据挖掘。
