本周最值得关注的论文TOP10

Community Article Published December 2, 2025

AB8EEC15-A7E0-496C-A66C-471128F35F37

全文目录

认知模型

  • Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

  • Natural Emergent Misalignment from Reward Hacking in Production RL

多模态

  • HunyuanVideo 1.5 Technical Report

  • HunyuanOCR Technical Report

  • Qwen3-VL Technical Report

具身智能

  • RoboCOIN: An Open-Sourced Bimanual Robotic Data COllection for INtegrated Manipulation

  • Thinking in 360°: Humanoid Visual Search in the Wild

  • ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

AI4Science

  • Early science acceleration experiments with GPT-5

  • International AI Safety Report 2025: Second Key Update: Technical Safeguards and Risk Management

认知模型

NVIDIA发布Nemotron Elastic:首个实现"一模多用"的推理大模型,单次训练成本降低360倍

信号源:英伟达

通讯作者:Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan

论文链接:Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

项目链接:https://huggingface.co/nvidia/Nemotron-Elastic-12B

认知提取

就像俄罗斯套娃可以层层嵌套,Nemotron Elastic让一个12B参数的大模型内部同时包含9B和6B两个完整子模型,无需额外训练即可按需提取使用,将模型家族的训练成本从数万亿token降至仅需1100亿token。

论文摘要

NVIDIA提出Nemotron Elastic框架,实现了首个专为推理任务设计的弹性大语言模型架构。该方法通过端到端训练的路由器和两阶段课程训练,在单个12B参数的父模型中同时嵌套9B和6B两个子模型。相比从头训练模型家族,该方法仅需1100亿训练token即可完成,实现了360倍的成本降低;相比现有压缩技术也降低了约7倍成本。更重要的是,所有嵌套模型共享相同权重,部署时仅需父模型的内存空间,实现了"训练一次,随时提取"的零样本部署能力。这一突破为在资源受限场景下部署高性能推理模型开辟了新路径。

核心方法

  • 方法框架:Nemotron Elastic采用三阶段方法构建弹性推理模型:首先通过激活值分析对模型各组件(嵌入维度、注意力头、Mamba头、FFN神经元和层深度)进行重要性排序;然后设计可学习路由器,根据目标参数预算动态生成掩码来选择保留的组件;最后采用两阶段训练策略,第一阶段用短上下文(8192 token)稳定路由器,第二阶段用长上下文(49152 token)优化推理能力。整个过程中,所有子模型共享父模型权重,路由器通过Gumbel-Softmax实现可微分的架构搜索,使得模型能够同时针对多个参数预算进行端到端优化。

  • 技术细节:
    • 重要性估计:通过前向传播计算激活值幅度来排序组件,对于层深度则使用归一化均方误差(MSE)迭代评估每层对模型预测的贡献度
    • 动态掩码机制:为每个维度(嵌入、Mamba、注意力头、FFN)设计专门的掩码算子,确保在保持架构约束的同时实现灵活的组件选择
    • 端到端路由器:每个维度配备独立的两层全连接网络作为路由器,输入为目标预算的one-hot编码,输出经Gumbel-Softmax生成软概率分布用于梯度传播
    • 知识蒸馏:将未弹性化的完整模型作为冻结教师,通过前向KL散度指导压缩变体的训练,使其更好地跟踪原始模型行为
    • 两阶段课程训练:第一阶段采用均匀预算采样确保所有子网络获得平衡训练信号;第二阶段转为非均匀采样(12B:9B:6B = 0.5:0.3:0.2)以防止大模型性能退化
    • 群感知SSM弹性化:针对Mamba组件设计特殊的掩码策略,确保同一组内的头保持一致性,维护状态空间模型的结构完整性

实验成果

  • 在推理基准测试中,Nemotron-Elastic-12B在MATH-500、AIME-2024/2025、GPQA、LiveCodeBench和MMLU-Pro上的平均得分达到77.41,与基线模型NanoV2-12B的77.38相当,证明了在同时优化三个嵌套预算目标的复杂情况下仍能保持竞争力。值得注意的是,9B和6B子模型也展现出与独立训练模型相当或更优的性能。
  • 训练效率方面取得了显著突破:仅需1100亿token即可从12B父模型同时派生出9B和6B变体,相比Minitron-SSM方法的7500亿token实现了约7倍的成本降低,相比从头预训练的40万亿token更是实现了360倍的效率提升。这一成本优势随着模型家族规模的增长而愈发显著,因为弹性训练的token需求基本保持恒定,而传统方法呈线性增长。
  • 部署内存方面展现出独特优势:由于所有子模型共享相同的参数空间,部署6B、9B、12B三个模型仅需24GB内存(BF16精度),比分别部署NanoV2的9B和12B两个模型所需的42GB减少了43%。路由器参数的额外开销不到父模型大小的2%,使得单一检查点可以零样本提取任意训练过的预算变体,无需重新训练或微调。

总结与反思

  • 结果总结:Nemotron Elastic首次实现了推理大模型的弹性训练,通过单次训练同时优化多个参数预算的子模型,在保持竞争性准确率的同时将训练成本降低了7-360倍,并实现了零内存开销的多模型部署能力,为资源受限场景下的高性能推理模型部署提供了实用路径。
  • 局限性:论文指出当前方法在长上下文训练阶段采用均匀预算采样时,观察到大模型性能退化而小模型改善的训练不平衡现象,这表明多预算训练需要仔细的负载平衡策略。此外,虽然实现了显著的效率提升,但该方法目前仅在12B规模上验证,对于更大规模模型家族的扩展性还有待探索。
  • 前沿见解:论文提出的未来研究方向包括:扩展到更大规模的模型家族以验证可扩展性;开发任务特定的架构选择机制以针对不同应用场景优化性能;实现推理时的动态路由以根据输入复杂度自适应选择模型大小;以及与量化技术结合以实现极致的参数压缩。这些方向将进一步推动弹性推理模型在实际部署中的应用价值。

多模态

腾讯混元Video1.5:83亿参数实现最先进开源视频生成,可在消费级GPU高效运行

信号源:腾讯混元

论文链接:HunyuanVideo 1.5 Technical Report

项目连接:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5

认知提取

混元视频1.5用83亿参数实现了开源视频生成的新突破,就像用一台紧凑型发动机达到了超跑性能——通过精心设计的稀疏注意力机制和渐进式训练策略,它在消费级GPU上就能生成媲美闭源商业模型的高质量视频,证明了'小而精'的架构设计理念可以打破'大力出奇迹'的参数军备竞赛。

论文摘要

混元视频1.5是一个仅有83亿参数的开源视频生成模型,却达到了业界领先的视觉质量和运动连贯性。该模型通过精心的数据筛选、创新的选择性滑动块注意力机制、增强的双语文本理解、渐进式预训练与后训练策略,以及高效的视频超分辨率网络,构建了统一的文生视频和图生视频生成框架。更重要的是,这个轻量级模型能在消费级GPU上高效运行,相比闭源商业模型在保持相当质量的同时大幅降低了计算门槛,为视频生成研究和应用的民主化开辟了新路径。

核心方法

  • 方法框架:模型采用两阶段生成流程:第一阶段使用83亿参数的统一扩散Transformer生成480p到720p、5到10秒的初始视频序列,支持文生视频和图生视频两种模式;第二阶段通过专用的视频超分辨率网络将输出提升至1080p。核心创新在于将3D因果VAE的高压缩率、选择性稀疏注意力的计算优化、以及Muon优化器的快速收敛能力有机结合,使小参数模型也能产出专业级内容。整个框架通过渐进式多阶段训练策略,从文生图预训练逐步扩展到多分辨率、多帧率的视频生成,系统性地建立了模型的语义对齐、视觉多样性和时序连贯性能力。

  • 技术细节:

    1. 选择性滑动块注意力机制:这是一种无参数的稀疏注意力设计,通过动态评估每个3D时空块的重要性并剪除冗余token,将注意力计算复杂度从序列长度的平方降低到线性级别。就像智能导航只关注关键路口而非每个路标,该机制在10秒720p视频合成中实现了1.87倍的端到端加速。
    2. 双通道文本编码器:结合Qwen2.5-VL多模态大模型实现深层场景理解,同时集成多语言Glyph-ByT5编码器专门处理文字渲染。这种设计如同配备了'语义理解'和'字形雕刻'两套系统,使模型既能把握高层语义又能精确呈现中英文字符。
    3. 3D因果VAE:采用因果Transformer架构实现图像-视频联合编码,空间压缩比16倍、时间压缩比4倍,潜在通道维度32。这种高压缩率大幅减少了后续扩散模型需要处理的token数量,是实现高效推理的基础。
    4. Muon优化器:在训练中采用Muon优化器替代传统AdamW,仅用一半训练步数就达到更低训练损失,同时在多个文生图基准上表现更优。这种优化器加速了模型收敛,使大规模视频模型训练更加高效。
    5. 渐进式预训练策略:从256p文生图开始,逐步扩展到512p图像、256p视频,最终达到720p 24fps视频。这种从简单到复杂的训练路径,配合针对不同token长度精心设计的shift调度策略,确保了训练稳定性和模型性能的持续提升。
    6. 强化学习对齐:图生视频任务使用在线强化学习纠正结构和运动伪影,采用混合ODE-SDE求解器丰富探索空间;文生视频任务则采用离线DPO后接在线RL的混合策略,先用人工标注的高质量偏好对数据建立优质策略起点,再通过在线优化进一步提升视觉质量和语义对齐。

实验成果

  • 在综合评测中,混元视频1.5在文生视频任务的指令遵循维度得分61.57,虽略低于Veo3的73.77,但在结构稳定性上以79.75的高分显著领先其他开源模型。与参数量达27B的Wan2.2相比,混元1.5仅用三分之一参数就在多数维度取得相当或更优表现,证明了架构效率的重要性远超单纯的参数堆叠。

  • 在图生视频任务中,模型展现出更强的竞争力,特别是在图像一致性维度达到72.07分,与闭源商业模型基本持平。在GSB人工评测中,相比Wan2.2获得12.65%的胜率优势,相比Kling2.1获得9.72%优势。这些数据表明,通过专门的指令式标注和强化学习对齐,小参数模型同样能在特定任务上达到业界领先水平。

  • 推理效率方面实现了重大突破:在启用流水线卸载等优化技术后,720p 121帧的文生视频或图生视频推理峰值显存仅需13.6GB,使RTX 4090等消费级GPU也能完成端到端推理。配合稀疏注意力机制,241帧长视频的推理时间从5.5秒/步降至2.95秒/步,实现了近1.87倍加速。这种效率优势使高质量视频生成真正走向大众化应用。

总结与反思

  • 结果总结:混元视频1.5证明了通过系统化的架构设计、数据工程和训练策略优化,83亿参数的紧凑模型可以在视觉质量、运动连贯性和推理效率之间达到最优平衡,在开源视频生成领域树立了新标杆,并通过开源代码和权重降低了视频创作与研究的准入门槛。
  • 前沿见解:该工作揭示了视频生成模型发展的新方向:相比盲目增加参数规模,更应关注架构效率、注意力机制优化、数据质量提升和训练策略创新的协同作用。特别是选择性稀疏注意力和渐进式训练范式的成功,为未来构建更高效、更易部署的多模态生成模型提供了重要启示,预示着'精益化AI'时代的到来。

具身智能

北京智源研究院等15家机构联合发布RoboCOIN:首个超18万演示的多具身双臂操作数据集,引入分层能力金字塔实现概念到控制的多层次学习

信号源:北京智源研究院,电子科技大学,蚂蚁,北京邮电大学,哈尔滨工业大学,中国人民大学,中国科学院,华中科技大学,剑桥大学,哈尔滨工程大学,北京大学,西南交通大学,Galbot,Galaxea,乐居机器人,阿捷克斯机器人,TQ-Artisan,AI2 Robotics,Realman Robotics,Booster Robotics,DORA社区,清华大学,斯坦福大学,加州大学伯克利分校,PsiBot

通讯作者:Yuke Zhu, Linxi "Jim" Fan

论文链接:RoboCOIN: An Open-Sourced Bimanual Robotic Data COllection for INtegrated Manipulation

项目链接:https://flagopen.github.io/RoboCOIN/

认知提取

这项工作就像为机器人建立了一套从"战略思考"到"战术执行"再到"肌肉记忆"的完整学习体系,通过18万+真实演示和三层标注架构,让不同形态的机器人都能从高层任务理解逐步深入到精确动作控制,突破了以往数据集只提供"动作轨迹"而缺乏"思维结构"的局限。

论文摘要

RoboCOIN是一个包含超过18万次演示的大规模多具身双臂操作数据集,覆盖15个不同的机器人平台、421项任务和16个真实场景。其核心创新在于提出了分层能力金字塔,提供从轨迹级概念、片段级子任务到帧级运动学的多分辨率标注,使模型能够从全局规划到精确控制进行结构化学习。配套的CoRobot框架包含RTML质量评估语言、自动化标注工具链和统一的多具身管理平台,为可扩展的机器人学习建立了基础设施。实验表明,该数据集在多种模型架构和机器人平台上都显著提升了双臂操作性能,特别是在复杂任务中提升最为明显。

核心方法

  • 方法框架:研究团队通过远程操作从15个不同机器人平台收集了18万+高质量演示数据,涵盖双臂、半人形和全人形机器人。核心创新是分层能力金字塔:轨迹层描述全局场景和任务目标,片段层将任务分解为可执行的子任务序列,帧层提供密集的运动学细节。这种多分辨率结构使模型能够同时学习高层概念理解和低层精确控制,突破了传统数据集只提供单一层次轨迹的限制。

  • 技术细节:

    1. 机器人轨迹标记语言RTML:一种领域特定语言,将专家规则转化为机器可读的约束条件,通过全局约束(如工作空间边界、速度限制)和局部阶段约束(如抓取阶段的姿态容差)自动评估轨迹质量,就像给机器人动作制定了一套'质检标准'
    2. 半自动标注工具链:结合视觉语言模型进行场景描述、规则工具识别关键帧和状态转换、滑动窗口量化帧间运动,实现了从高层语义到低层运动的完整标注自动化
    3. 统一机器人平台:基于LeRobot扩展,提供跨平台的统一控制接口、支持片段级和帧级文本标注、采用原子化存储策略按具身体、任务、环境划分数据集,大幅降低了多具身学习的技术门槛
    4. 分层标注集成HAI:将三层标注作为额外输入令牌融入VLA模型,训练时使用完整标注,推理时结合人类指令和自动生成的实时上下文(通过阶段变化检测和状态历史总结),无需修改模型原始架构即可增强其分层推理能力

实验成果

  • 在Realman RMC-AIDA-L平台上,π0模型对简单任务(如将毛巾放入篮子)达到80%成功率,但在复杂任务(如将桃子放入抽屉并关闭)仅20%。引入分层标注集成HAI后,简单任务提升至90%,复杂任务大幅提升至70%,证明了分层标注在提升复杂双臂协调任务性能方面的显著作用。
  • RTML质量过滤实验显示,平均35.3%的人工演示轨迹存在质量问题被过滤。阶段分析发现52.7%的失败发生在抓取阶段,指标分析显示46.2%的失败由速度违规导致。使用RTML过滤数据训练的GR00T-Fine模型比原始数据训练的GR00T-Raw提升16%,进一步结合高质量片段挖掘的GR00T-Mine达到23%的总体提升,表明精细化轨迹验证对策略性能的重要性超过单纯的数据规模。
  • 跨具身评估在Unitree G1edu-u3人形机器人和Realman RMC-AIDA-L半人形机器人上都获得一致的性能提升,验证了RoboCOIN数据集和分层标注方法的多具身适用性。边界案例测试(如面包极端旋转、碗在工作空间边缘等)中,GR00T-Mine在这些挑战性场景下仍达到47.5%成功率,证明RTML有效消除了极端情况并增强了模型鲁棒性。

总结与反思

  • 结果总结:RoboCOIN通过分层能力金字塔和RTML质量评估,为多具身双臂操作建立了首个大规模、结构化的学习基准,实验证明分层标注使VLA模型在复杂任务中性能提升高达50%,而精细化质量控制比单纯扩大数据规模更能提升策略学习效果
  • 局限性:论文提到标注工具虽降低成本但仍可能引入误差需人工验证;RTML的阈值设置基于经验可能无法泛化到所有场景;研究未包含混合具身训练或跨具身策略迁移实验
  • 前沿见解:未来计划开发更智能的RTML过滤策略(可能使用统计或学习方法)并将其集成到数据收集过程实现实时监督;增强CoRobot框架支持更多模态和机器人平台;开展混合具身实验开发能跨平台迁移的强大双臂策略,这些努力将进一步提升框架的通用性和效率,推动复杂多具身双臂操作任务的发展

AI4Science

OpenAI等机构发布GPT-5早期科学加速实验报告,展示AI在数学、物理、生物等领域的研究突破能力

信号源:OpenAI,牛津大学,法国高等研究院,剑桥大学,范德堡大学,哥伦比亚大学,哈佛大学,劳伦斯利弗莫尔国家实验室,杰克逊实验室,加州大学伯克利分校

论文链接:Early science acceleration experiments with GPT-5

认知提取

GPT-5已从单纯的工具进化为能够独立推导数学定理、发现物理对称性、预测生物实验结果的科研合作者,就像为每位科学家配备了一支跨学科专家团队,能在几分钟到几小时内完成原本需要数月的研究工作。

论文摘要

本报告通过数学、物理、天文学、计算机科学、生物学和材料科学等领域的案例研究,展示了GPT-5在科学研究中的实际应用能力。报告包含四个新的数学定理证明(经人类专家验证),证明AI能够协助人类数学家解决此前未解决的问题。GPT-5不仅能独立重新发现前沿科学结果、执行深度文献检索,还能与人类研究者协同工作加速研究流程,甚至在适当引导下产生新的研究级成果。尽管存在局限性(如可能出现错误、需要专家验证),这些成果标志着AI从辅助工具向真正科研伙伴的转变,预示着科学发现速度的显著提升。

核心方法

  • 方法框架:报告采用案例研究法,将GPT-5在不同科学领域的应用分为四类:

    1. 独立重新发现已知前沿结果,验证AI理解核心科学突破的能力
    2. 执行深度文献检索,利用AI跨越学科语言障碍发现隐藏联系
    3. 与人类协同工作,展示AI如何加速研究工作流
    4. 获得新科学结果,证明AI在适当引导下能解决开放问题 每个案例都记录了完整的人机交互过程,明确标注人类输入和AI贡献,确保结果的可验证性和可重现性。
  • 技术细节:

    • 数学定理证明:GPT-5能够理解复杂数学概念,提出创新证明策略(如使用Legendre多项式和Bessel函数展开),并生成完整的形式化证明。例如在凸优化问题中,它将已知的步长条件从η≤1/L改进到η≤1.5/L,采用了与人类专家完全不同的方法
    • 物理对称性发现:在黑洞物理中,GPT-5推导出Kerr时空中波动方程的SL(2,R)李点对称性。关键是采用'热身策略'——先在平面空间求解简单情况,然后推广到弯曲时空,这种脚手架方法显著提高了成功率
    • 生物实验分析:在免疫系统实验中,GPT-5分析流式细胞术数据,提出关键机制假设(如通过N-糖基化干扰减少IL-2信号传导),并预测后续实验结果。其贡献达到合著者水平,能在19分钟内完成原本需要数月的机制推导
    • 文献检索:GPT-5能够理解概念本质而非仅匹配关键词,发现跨学科隐藏联系。例如将密度估计问题与多目标优化中的近似Pareto集联系起来,找到几十年前被遗忘的相关文献
    • 算法下界证明:在在线凸体追踪问题中,GPT-5构造了复杂的反例(涉及交替序列和递归半径选择),证明follow-the-leader算法的竞争比为无穷大,并将一般算法的下界从√d提升到(π/2)√⌊d/2⌋
    • 研究脚手架:报告使用专门的'研究导向脚手架'来引导GPT-5进行数学研究,这种方法在解决Erdős问题和图论不等式时表现出色,能够自主提出证明策略并执行完整论证

实验成果

  • 数学定理证明:报告包含四个经人类专家仔细验证的新数学结果。在凸优化领域,GPT-5独立推导出步长条件的改进界(从1/L到1.5/L),虽未达到最优值1.75/L,但已接近人类专家数天工作的成果。在图论中,GPT-5证明了树中子图计数的两个不等式,其中第二个是此前未解决的猜想,证明过程简洁优雅,仅需一页半篇幅。这些证明展示了AI在处理研究级数学问题时的实际能力,虽然仍需人类验证,但已能提供非平凡的智力贡献
  • 科学发现加速:在多个案例中,GPT-5将原本需要数月的研究工作压缩到几小时甚至几分钟。例如在ICF燃烧波传播建模中,研究者在6小时内完成了从概念到数值探索再到理论验证的完整流程,相当于两名博士后数月的工作量,实现了约1000倍的效率提升。在文献检索方面,GPT-5成功定位了10个此前被标记为'开放'的Erdős问题的已发表解答,并为另外10个问题报告了重要的部分进展,大幅减少了重复研究的浪费
  • 跨学科能力验证:报告涵盖数学、物理、生物、计算机科学等多个领域,证明GPT-5具有广泛的跨学科知识整合能力。在黑洞物理中,它能够处理复杂的偏微分方程和李群理论;在免疫学中,它能解释T细胞分化的生化机制并预测CAR-T细胞疗法的效果;在组合数学中,它能构造精巧的反例和证明。这种'广度中的深度'使得单个研究者能够像拥有整个专家团队一样工作,显著扩展了个人研究能力的边界

总结与反思

  • 结果总结:GPT-5已经从辅助工具进化为能够在科学研究中做出实质性贡献的智能系统,在适当的人类引导下能够独立推导定理、发现新结果、加速研究流程,标志着AI科学能力的重要里程碑
  • 局限性:GPT-5仍存在明显局限:会自信地犯错并坚持错误观点,结果依赖于提示细节且难以完全重现,在开放式问题上容易给出看似合理但经不起推敲的答案。更关键的是,它缺乏对数学'负空间'的感知——不知道哪些方法注定失败、哪些问题超出现有技术范围。因此目前仍需要专家级人类监督来验证结果、识别错误、提供关键引导
  • 前沿见解:报告强调AI研究助手的有效使用需要研究者本身具备深厚专业知识,就像使用计算器需要理解算术原理一样。未来研究方向包括:
    1. 开发更可靠的验证机制,减少错误率
    2. 提高结果的可重现性,降低对提示工程的依赖
    3. 增强AI对问题难度和方法适用性的元认知能力
    4. 探索人机协作的最佳模式,明确各自的角色边界 随着AI能力的快速提升,科学发现的速度和效率有望实现质的飞跃。

【奇绩前沿信号介绍】

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩沿信号依托奇绩内部的研究体系,持续追踪并解读全球 AI 领域前沿的论文和产品动态。

基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪,只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号:

  • 认知模型突破、多模态跃迁、智能体进化……
  • OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向
  • Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆

AB8EEC15-A7E0-496C-A66C-471128F35F37

Community

Sign up or log in to comment