大型推理模型的上限被:“自适应难度蒸馏”超
日期:2025-05-06 10:51 浏览:

那些设置本文的人都来自中兴无线研究所的“大型模型深水潜水”团队。团队研究的主要方向包括“构建谨慎模型:校正和研究方法”,“无线通信故障位置的推理模型和根本原因分析”,“多模式推理模型”和“推理加速技术”。主要成员毕业于著名的大学和研究机构,例如中国科学技术大学以及中国科学院软件研究所。近年来,“思想链”一直是大规模推理模型的体现,但是制作具有链条推理能力的小型模型并不容易。 ZTE无线研究所的“大型模型深水团队”从“数据静态体验流”看不到穆拉,并赦免了“ LLM自适应问题蒸馏”方法,该方法使生产效率同步y和高质量的科特语料库的影响。 Paper Title: Reflect on the generation of high-quality cot data from the LLM-adaptive question perspective difficulty in grading paper link: https://arxiv.org/pdf/2504.11919 The open resource link is as follows: Code Data: https://huggingface.co/datasets/zte-Iim/32b_llm_adaptive_data Mathematics Data: https://huggingface.co/datasets/zte-aim/32b_llm_ adaptivemath_data代码模型:https://huggingface.co/zte-aim/zte-aptive-aptive-zcode-zcode-zcode-zcode-mode-mode-mode-mode-mode-mode-del-del-del-del-d2,b,2.---------------动机:小型模型还希望拥有“长链思维”大型模型具有独特的好处,而扩展就像符合Deepeek-R1(671B参数)模型的释放,这是长期构想的链(COT),即在大型大型模型和工业应用中迅速处理有理技术。尽管DeepSeek-R1具有很强的概念能力,但体积为600+b参数的模型为difficult用于侧面设备和实时系统。小型模型需要轻松地“祝福”,激励该行业对参数不到70亿的小型模型进行持续研究,尤其是专注于长期链条情况,例如复杂的数学解决问题和代码的代码。值得注意的是,在DeepSeek-R1推理过程中,可以构建高质量数据(COT),从而显着增强了对小型模型的认知能力。然而,目前,在许多逐步识别活动中,具有数十亿到数十亿的参数的小型模型(例如各种数学问题和编程问题中明显的瓶颈,并且难以完全满足此类应用的需求。现有的COT数据的困境基于DeepSeek-R1,基于COT数据几乎是cot数据。 2025c):提高理解能力by堆叠超大规模的cot语料库,但是成本的计算和标记很高,效率很低。 Al.scale的戏剧性,表现很难维持。尽管工作(Wen等,2025a)引入了研究,并拒绝样本以优化训练过程,但上述方法通常忽略“放置数据数据的困难”之间的动态匹配。这直接导致两个基本问题:1。如何定义高质量的科特语料库? 2.如何从现有数据中获得迁移的“静态经验体验”?新方法:研究蒸馏的模型自适应贫困,研究的父亲理查德·萨顿(Richard Sutton)提出了这样一种想法,即“经验”是下一代超级数据源,它将大规模增强研究的本质定义为一种动态数据挖掘经验。基于此,我们的团队提出了一种基于模型适应性的难度和易用性的方法来删除NG COT语料库MS,大大提高了长COT语料库的质量。该方法提出了围绕“模型数据动态匹配”的COT构建的完整过程,并具有四个创新:1。基于模型推理的自然能力,建立了层次结构层次结构系统,以生成“静态体验”。 2。根据难度标签,开发了一个涵盖所有梯度的问题的自适应库。 3.设计一个难以分发策略的困难,该策略符合课程研究思想,以确保培训数据与模型的能力实时保持一致。 4。在DeepSeek-R1的帮助下,在两种主要情况下,一批高质量的COT语料库产生了:数学推理和COD Generatione。在相同的计算预算下,这种自适应解决方案可以继续提高不同量表模型的性能 - AIME24数学竞争的制造,例如每个参数文件的正确性模型比传统的“非自适应”立场高6.66%-26.7%(查看1)。图1:比较不同参数维度LLM的LLM自适应问题的COT数据构建效应,该识别模型是由COT数据培训的识别模型,该模型使用COT数据构建的问题,该问题在数学竞争竞赛AIME24中对分级方法(左)进行了自适应难度AIME24的分级方法(左)始终胜过非适应性方法(右)。它表明,以前形成具有更高质量的COT数据,并且适合模型的静态数据体验流将很方便。该方法有效地是COT数据中的地雷静态经验流,静态体验流是模块类型本身密切相关的。方法,一张要理解图2的图片:基于LLM的自适应问题难度与分级框架以及三个主要组成部分的生成COT数据的框架:施工分布,LLM自适应问题,分级和分配困难TED采样和LLM自适应思维链(COT)世代。 1。施工分布建立了两种难度分布技术,作为随后 - 判断的基础:选项1:基于模型的实际性能(Pₑᵥₐₗ)的分布,这是通过在评估数据集(DBₑᵥₐₗ)中的主LLM(sₗₗₘ)执行的动态产生分布难度(DB)的动态生成分布难度的。问题没有回答印地语的真实:PRM-学生(过程奖励模型)进行进一步的评分,该模型产生的答案的轨迹理解(0-1点)的质量已映射到5个困难水平(下点,难度越高)。选项2:按照先前的分布(p₆),手动定义五个级别的难度,遵循分布“更容易的问题和较少难题”的原则,体重增加和减少困难:例如,样本数量wITH难度1是最大的,至少5级的数量是。 2. LLM自适应问题很难在抽样中进行分级和分配步骤1:开发自适应库问题(DBₐDₐₚₜᵢᵥₑ),从开放资源数据集收集原始问题(DBᵣₐW),使用Sₗₗₘ来生成答案和意大利推理轨迹。验证答案的准确性:任务任务:将模型的答案与标准答案直接比较。代码生成工作:通过实施测试用例来证明代码的准确性。硬分级:正确的目标问题被记录为“简单”,并将其添加到问题的库中。错误问题通过PRM-Grader(1-5级,第1级最难)分为5级难度,并添加到银行问题中。步骤2:根据构造的分布(pₑᵥₐₗ或p₆)3。LLM自适应COT生成和生成阶段的分布式抽样(DBₛₐₘₚₗₑ)难度问题比例。教师模型(即Deptseek-r1)中的抽样问题(DBₛₐₘₚₗₑ)形成详细的任期(COT)。验证阶段:严格过滤正确的cot数据,即结果 - 佛教符(对应于步骤2的验证方法),并最终生成一个高质量的数据集cotₐdₐₚₜᵢᵥₑ。模型训练:管理的微调(SFT)用于获得优化的概念模型(Rₗₗₘ)。该方法的基本创新:模型适应性的自适应难度:根据模型的实际技能调整分布问题的难度,避免“适合大小”的主观分级,并开发出与模型紧密相关的数据的静态流量经验;轻量级过程:不需要复杂的课程研究或拒绝采样,只有通过评分和采样才能提高数据质量;多任务功能:支持号码定义代码生成和活动,验证过程是灵活的(指导in答案/测试用例)。实验的效果:令人惊讶的是,要继续研究我们建议的COT数据的质量效果,我们已经对各种大小和拥有的模型进行了详细的验证,涵盖了包括 - 同伴推理的任务以及代码生成的工作。以下是对实验的重要结果的详细介绍:数学推理(MATH500,AIME24/25,GPQA)在数学基准测试中,例如Math500,Aime24/25,GPQA,ZMATH系列模型,受过2K适应性COT数据训练的ZMATH系列模型比基线模型要好得多。 Zmath-32B在Math500中的精度达到94.6%,超过了DeepSeek-Distill-32b(89.8%)和Sky-32b-Preview(90%); AIE24(基线为66.67%)的增长到73.33%。 Zmath-14b在AIE24中的精度为50%,大于PHI4-14B(30%),在GPQA中达到63.13%(PHI4-14B中为54.55%)。图3:代码生成的数学实验结果(livecodebench)的结果ZCODE-32B达到96.06%,75.53%和31.85%至三个贫困水平:容易,中等和困难,比Deptseek-Disti-32b(92.11%,74.92%和30%)更好。 Zcode-14b在89.96%的情况下轻松地领导PHI4-14B(72.4%),这表明小参数模型也可以通过自适应数据培训来实现竞争性能。图4:当32B模型分布中的难度直接应用于7b模型时,避免实验和分布分布的生成结果的产生结果,Math500糖尿病中后者的准确性仅为92%,小于通过使用自己的ADADEPT在分配贫困方面获得的93.2%。结果表明,难度的分布应该是动态的 - 对目标模型的功能,并且自适应分布是提高性能的关键。它还表明,经验的静态经验流中真正重要的体验应与特定模型密切相对应,而是而不是“适合大小的所有”来切换到型号。图5:该代码实验结果的摘要和观点本文提出了基于LLM自适应分级困难的小屋数据的高质量框架,并通过系统的实验证明了效率,有效性和能力。主要结论是:大量数据首先评估当前模型理解的能力,然后构建问题的自适应库的匹配。只有2 K高质量的婴儿床样品可以显着提高性能,并显着降低数据和计算成本。跨任务和数学推理参数(AIME系列)和代码的生成(LiveCodeBench)的一般性能达到了领先的性能; 7 B -32 B可以为不同的规模模型带来稳定的增长。对该过程的贡献构建了一个系统的数据生成和数据分析过程,为小型LLM参数提供了一条新的途径。改善链条推理能力的环境,还为“静态经验”采矿提供了可用的范式。未来的工作:进一步结合了强化研究,以探索深度的痛苦理由,并扩展到更复杂的跨域活动,例如诊断交流罪。