AAAI人工智能会议(AAAI Conference on Artificial Intelligence)由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一。第40届AAAI人工智能会议(AAAI 2026)将于2026年1月20日至1月27日在新加坡召开。

01. 虚幻乐园-基于虚幻引擎的多智能体强化学习通用平台(※oral

Unreal-MAP: Unreal-Engine-Based General Platform for Multi-agent Reinforcement Learning

论文作者:扈天翼,付清旭,蒲志强,王元,丘腾海

本工作推出了多智能体强化学习(MARL)领域中第一个通用平台Unreal-MAP。该平台基于虚幻引擎(UE)打造,允许用户利用UE社区丰富的视觉与物理资源创建定制化MARL任务,并在开发的任务中署最前沿MARL算法。该平台在部署、修改和可视化方面均用户友好,且所有组件开源。此外,本工作还推出了MARL领域中第一个支持多队伍多算法训练的训练框架HMAP,支持从规则驱动到学习驱动的多种算法,并兼容第三方框架算法。团队通过Unreal-MAP搭建了一系列MARL示例任务,包括大规模、异构、多队伍博弈、稀疏团队奖励等特征,并在这些示例任务中充分测试了SOTA算法。最后,团队完成了sim2real的系统性实验验证。我们认为,通过将现有算法与用户自定义真实任务深度整合,Unreal-MAP将在MARL领域发挥重要推动作用,促进该领域的研究与应用发展。

图1. Unreal-MAP的研究工作流程:针对新手用户,该平台提供对内置任务的直接访问权限,并配备完善的算法部署功能及可视化能力;针对高级用户,Unreal-MAP支持用户修改现有内置任务或自主开发新任务框架,从而验证其研究设想。平台兼容各种算法和算力设备,可实现虚幻端渲染、打包文件渲染以及跨设备训练+实时渲染。

图2. Unreal-MAP的架构设计: 该平台采用层次化五层架构设计,全部功能模块均开源。用户可仅通过Python接口层配置参数,对POMG框架内的所有要素进行编辑修改;对于更复杂的开发需求,用户可借助高级模块层的蓝图系统(Blueprint)灵活调整场景要素。


02. TinyChemVL:通过高效视觉令牌缩减与复杂反应任务推进化学视觉语言模型

TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks

论文作者:赵烜乐,曾舒心,蔡新元,程翔,徐波

尽管视觉语言模型(VLM)在通用视觉理解上能力卓越,但在化学领域的应用却因忽视分子结构等关键视觉信息而受限。现有的化学VLM模型普遍存在两大问题:一是处理完整化学图像导致计算效率低下,二是任务局限于分子层面,导致化学推理能力不足。为此,我们提出了 TinyChemVL,一个高效且强大的化学VLM。它通过视觉令牌缩减技术提升效率,并引入反应层面任务来增强模型的推理能力。此外,我们还构建了首个反应级基准 ChemRxn-V,用于评估模型的视觉反应识别与预测能力,这对模型的综合识别与推理能力提出了重大挑战。实验结果表明,仅有4B参数的 TinyChemVL 在分子和反应任务上均取得了顶尖性能,且训练与推理速度更快。

图1.TinyChemVL模型算法与结构图

图2.ChemRxn-V任务


03. 面向情境化语音识别的语音感知长上下文剪枝与集成

Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition

论文作者:戎奕名,张逸昕,王子翼,江德扬,赵云龙,吴浩然,周世玉,徐波

自动语音识别(Automatic Speech Recognition,ASR)系统在常规条件下已取得显著性能,但在需要领域特定知识的情境化场景(如会议报告)中,往往难以有效利用长时上下文信息。其主要原因在于模型可用的上下文窗口受限,以及大量上下文噪声中有效信息的稀疏性。为解决这一问题,我们提出了SAP2方法,这一全新框架能够通过两阶段动态剪枝与整合相关的上下文关键词。具体而言,每个阶段均采用我们提出的基于语音驱动的注意力池化机制,从而在保留与语音高度相关信息的同时,高效压缩上下文嵌入。实验结果表明,SAP2在SlideSpeech 与LibriSpeech数据集上均取得了当前最优性能,其字错误率(WER)分别达到 7.71%与1.12%。在 SlideSpeech上,我们的方法相较于无上下文基线,在有偏关键词错误率(B-WER)上实现了 41.1% 的显著下降。此外,SAP2还展现出良好的可扩展性,在面对大规模上下文输入时依然能够在两项数据集上稳定保持优异表现。

1. SAP2整体框架示意图

2. 识别结果对比示例


04.基于预训练嵌入的不完美信息博弈无遗憾策略求解

No-Regret Strategy Solving in Imperfect-Information Games via Pre-trained Embedding

论文作者:付延昌,刘圣达,徐沛,黄凯奇

高质量信息集约简仍是求解大规模不完美信息扩展型博弈(如无限制德州扑克)的核心挑战 —— 此类博弈中,空间计算资源的有限性阻碍了全博弈层面的策略求解。当前主流人工智能方法依赖预训练离散聚类实现约简,但这种硬分类会不可逆地丢失关键信息:具体而言,信息集之间可量化的细微差异(这对策略求解至关重要),进而影响求解质量。受自然语言处理中词嵌入范式的启发,本文提出嵌入 CFR 算法(Embedding CFR),一种在嵌入空间中求解不完美信息扩展型博弈策略的新方法。该算法通过预训练将孤立信息集的特征嵌入到相互关联的低维连续空间中,生成的向量能更精准地捕捉信息集之间的差异与关联。嵌入 CFR 在该嵌入空间内,以遗憾累积和策略更新为核心驱动策略求解过程,相关理论分析验证了其降低累积遗憾的能力。在德州扑克的变体实验环境中的验证表明,在相同空间开销下,与基于聚类的约简算法相比,经嵌入 CFR 求解的策略可利用度下降速度显著更快,证实了算法的有效性。嵌入CFR是首个在扑克人工智能中通过低维嵌入预训练信息集约简以实现策略求解的算法。

1 德州扑克中手牌■、●、◆(表征信息集)在Embedding CFR与传统信息集约简下的表征行为对比:(a)Embedding CFR将信息集映射为嵌入坐标,该坐标构成m维概率分布,且所有维度的数值之和为1;(b)嵌入坐标的二维投影展示了手牌间的几何拓扑关系,既突出了相似性(■与●之间的近距离),也体现了差异性(与◆的远距离);(c)传统约简方法将信息集映射固定数量(如m个)的约简等价类中,迫使信息集在分类时面临二元选择:以■、●为例,要么将二者细分到不同等价类,要么将二者合并到同一类。这种缺乏中间状态的特性,阻碍了利用信息集间的相似性辅助策略求解的可能。

2Embedding CFR与基础CFR算法的运行流程对比:Embedding CFR(左)需要将原空间中的遗憾值在嵌入空间中积累并诱导计算出嵌入空间中的辅助策略并映射回原空间,基础CFR只需要在原空间内积累遗憾并诱导计算策略。


05.元认知参考模型引导的大模型智能体策略优化算法

RefRea: Reference-Guided Reasoning with Meta-Cognition for Accurate Language Model Agents

论文作者:麦宇翔,尹奇跃,倪晚成,郭建威,欧阳小刚,徐沛,黄凯奇

近年来,随着大语言模型(LLMs)的快速发展,基于 LLM 的智能体在广泛的任务中取得了显著进展。然而, LLMs 的推理不一致性仍然严重限制了智能体在复杂决策场景中的表现。认知科学研究表明,个体通过观察他人的显性思维过程,可以改善自身的策略制定。受这一机制启发,本章提出了一种新的方法基于参考引导与元认知的推理(RefRea),通过引入参考语言模型来指导和校准推理模型的行为,从而增强决策能力。 RefRea 通过整合参考模型与元认知模块提升了推理的准确性与稳定性。参考模型仅依赖经过验证的元认知进行一致性指导,而推理模型则利用经过验证和探索性的元认知与环境交互。两者之间的指导是通过比较参考模型与推理模型的动作相似性实现的。元认知模块在这一过程中发挥支持作用,它通过反思动作历史和环境反馈生成总结性知识,从而促使行为更加适应性和可靠。实验结果表明, RefRea 优于当前最先进的方法。全面的消融实验进一步凸显了参考模型和元认知模块的有效性。

RefRea算法框架,包括推理模型、参考模型和元认知模块。该方法利用参考模型通过元认知对推理模型的动作进行校正,从而实现更高的推理准确性与稳定性。


06. 意象搜索:面向视频生成的突破语义依赖约束的自适应测试时搜索方法

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

论文作者:武美奇,朱家树,丰效坤,陈楚彬,朱琛,宋秉泽,毛方圆,吴佳洪,初祥祥,黄凯奇

随着生成模型的飞速发展,视频生成在真实场景中的表现已趋近人类视觉感知,但在需要跨越常识与长语义距离的“想象场景”中仍显乏力。针对这一瓶颈,我们团队提出了全新的推理时动态自适应策略——ImagerySearch,以突破现有视频生成模型在创造性视频生成中的局限。

与传统方法固定搜索空间和静态奖励不同,ImagerySearch 受“心象(mental imagery)”启发,能够在推理阶段动态调整生成搜索空间与奖励设计,使模型根据输入文本提示自适应优化生成策略,从而显著提升在想象性与非共现概念场景下的视频生成质量。

为系统评测生成模型的创造性能力,团队还构建了首个面向长语义距离提示的基准数据集——LDT-Bench(Long-Distance Text Benchmark)。该基准包含 2,839 组来自多领域具有挑战性的长距离语义概念对,并配套自动化评估指标体系,用于量化模型在跨长语义距离生成任务中的表现。

实验结果表明,ImagerySearch 在 LDT-Bench 上超越现有通用视频生成模型与静态Test-Time Scaling Law的方法,并在 VBench 等通用基准上同样表现优异,验证了其在多样条件下提升视频生成质量的有效性。团队将开源代码,以推动生成模型在创造性与认知一致性方向的进一步研究。

ImagerySearch 的动机。该图展示了两个与骆驼相关的语义依赖场景。左:距离表示在去噪过程中提示词元的相应作用强度。LDT-Bench 由具有长距离语义的想象场景构成,其语义依赖通常较弱。右:Wan2.1 在短距离语义下表现良好,但在长距离语义下失效。测试时缩放方法(如 Video T1(Liu et al.,2025a)、Evosearch(He et al.,2025a))同样表现乏力。然而,ImagerySearch 能生成连贯且具备上下文感知的动作(橙色框)。


07. 辅助数学推理的偏差约束前缀表示微调

Bias-Restrained Prefix Representation Finetuning for Mathematical Reasoning

论文作者:梁思睿,曹鹏飞,赵鉴,黄聪,赵军,刘康

本研究在解决表示微调方法在应用于大型语言模型进行数学推理时性能显著下降的问题。作为一种比参数高效微调更高效的技术,表示微调通过直接优化模型内部表征而非调整权重来适应新任务,但在数学领域表现不佳。通过诊断分析发现,其性能瓶颈主要源于两大原因:一是模型在推理初期难以生成有效的“推理前缀”,导致解题思路存在误导;二是表示微调的干预向量会干扰模型对数字的基础编码,这种错误会在后续的“思维链”生成中不断累积,最终导致计算失败。为应对这些挑战,本文提出了一种名为“偏差约束前缀表示微调”的新方法。该方法通过前缀训练与早期干预策略,使模型专注于学习生成高质量的初始推理步骤,并仅在早期进行干预以避免误差扩散。同时,通过“偏差约束训练”对干预向量的幅度进行约束,确保在有效引导推理的同时不破坏底层的数值表征。在多种模型架构上的大量实验证明该方法的有效性和通用性,显著提升了大型语言模型在数学推理任务上的表现。

ReFT和BREP的方法对比


08.RetroLM:面向长上下文处理的检索增强键值缓存

RetroLM: Retrieval-Augmented KVs For Long-Context Processing

论文作者:罗坤,刘政,肖诗涛,陈佳倍,钱泓锦,张配天,江珊珊,董斌,赵军,刘康

该研究针对大语言模型(LLM)在处理长上下文时面临的计算成本高昂和信息检索不准确等挑战,提出了一个名为RetroLM的新颖检索增强框架。

与在原始文本层面进行检索的传统RAG方法不同,RetroLM创新地在模型的键值(Key-Value,KV)缓存层面进行操作。它将KV缓存划分为连续的“页面”,并设计了一个专门的可训练“页面检索器”,以在推理过程中精确、动态地识别并检索出最关键的KV页面用于注意力计算。该框架通过高效的两阶段训练策略进行优化:首先训练检索器,然后对模型进行后训练以适应稀疏的KV上下文。

这种方法有效克服了传统RAG导致的文本碎片化和对检索错误敏感的问题,提升了模型对零散信息的利用效率,并节省了重复编码上下文的开销。在多个长文本基准测试上的实验结果表明,RetroLM的性能显著优于现有的长上下文模型和RAG方法,尤其在需要深度推理或处理超长文本的任务上优势更为明显。

提出的retrolm实现架构创新,有效处理长文本问题


09.EPO:基于能量偏好优化的蛋白质系综生成

EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization

论文作者:孙园成,任宇轩,陈钊铭,韩旭,刘康,叶启威

探索蛋白质构象系综对理解其功能至关重要。传统分子动力学(MD)计算昂贵且易陷入能垒。我们提出能量偏好优化(Energy Preference Optimization,EPO),在无需额外MD轨迹数据的前提下,将预训练生成模型转化为具备能量感知的采样器。EPO首先通过基于SDE的在线采样拓展构象空间覆盖,然后引入基于列表式偏好优化的能量排序机制,用更具物理能量-采样概率一致性的样本引导模型自我改进。为解决连续时间生成模型中长轨迹概率难以计算的问题,EPO提出了一个实用的上界近似,实现了在现有生成模型上的即插即用。在Tetrapeptides、ATLAS与Fast-Folding等基准上,EPO在九项指标上刷新SOTA,提升了蛋白质系综生成的几何多样性与物理合理性。

(a)EPO流程示意图。(b) 序列ASRE的势能面示意图。通过SDE在线采样实现对构象空间的多样性探索,通过基于能量偏好的微调实现与热力学分布的对齐。


10.SR-KI:通过监督注意力实现面向大语言模型的可扩展与实时知识注入

SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention

论文作者:俞博瀚,黄伟,刘康

本文提出了一种名为SR-KI的创新方法,用于将实时、大规模的结构化知识库(KBs)高效地融入大语言模型(LLMs)中。SR-KI首先通过预训练编码器将知识库编码为键值对(key-value pairs),并注入模型的KV 缓存(KV cache)。在此基础上,SR-KI采用了两阶段训练范式:第一阶段定位模型内部的专属“检索层”(retrieval layer),第二阶段在该层施加基于注意力的监督损失,显式引导模型聚焦于相关知识条目。与传统依赖外部检索器和多阶段工作流的检索增强生成方法不同,SR-KI实现了端到端推理,在模型的潜在空间中直接完成知识检索。这一设计不仅提升了知识压缩与利用效率,还支持动态知识更新。实验结果显示,SR-KI可在单张A100 40GB GPU上为7B参数模型注入多达4万条知识库条目,在最佳任务上实现超过98% Recall@10,平均性能超过88%。在问答和知识标识生成任务中,SR-KI 同样保持了卓越表现,同时实现了高达 99.75% 的知识压缩率。

图1 SR-KI在训练阶段于检索层应用监督注意力的示意图

图2 SR-KI推理阶段示意图


11.思考、交流与决策:经济环境中的语言增强多智能体策略学习

Think,Speak,Decide: Language-Augmented Multi-Agent Policy Learning in Economic Environments

论文作者:马赫阳,米祈睿,杨企鹏,樊梓君,李博,张海峰

经济决策不仅依赖于价格、税收等结构化信号,也依赖于同伴对话、媒体叙事等非结构化语言信息。虽然多智能体强化学习(MARL)在优化经济决策方面已经展现出潜力,但在处理语言的语义歧义与丰富的上下文时仍然存在困难。为此,我们提出LAMP(语言增强多智能体策略),这是第一个将语言融入经济决策过程的框架,从而缩小与真实世界场景之间的差距。LAMP 采用“思考–表达–决策”的流程:思考:对数值观测进行解释,提取短期冲击和长期趋势,并缓存高价值的推理轨迹。表达:基于推理结果生成并交换具有策略性的消息,同时通过解析同伴的交流内容来更新自身信念。决策:将数值数据、推理过程和反思结果融合到多智能体强化学习策略中,以优化经语言增强的决策过程。在经济仿真实验中,LAMP 在累计收益(提升 63.5% 和 34.0%)、稳健性(提升 18.8% 和 59.4%)以及可解释性方面,都优于传统 MARL 和仅使用大语言模型的基线方法。结果表明,语言增强策略有望带来更高效且更具鲁棒性的经济决策方案。

LAMP 的工作流程:(a)双路径的思考模块将长期趋势和短期冲击提取为紧凑的推理嵌入;(b)表达模块通过自注意力机制抽样并广播一条消息,并通过反思步骤来更新信念;(c)决策模块的策略网络将数值观测与语言嵌入和反思嵌入拼接起来,从而选择动作。


12.SAGE:面向广义零样本学习的结构化属性引导框架

SAGE: Structured Attribute-Guided Enhancement for GZSL

论文作者:张早,孙立国,吕品

基于嵌入的广义零样本学习模型通常首先在视觉特征与属性特征之间建立稳健的潜在语义关联,以使知识能够迁移至未见类别。尽管现有方法以属性为先验并学习共享嵌入空间,但它们存在两个关键缺陷:首先,模型对异质粒度的属性进行统一处理,导致语义模糊;其次,类别级误判的根源常与属性级错误不匹配,阻碍模型定位导致错误的特定属性。为克服这些局限,我们提出结构化属性引导框架(SAGE)。该框架首先通过共识感知的双向注意力机制,以互蒸馏方式同步视觉与语义的关注区域;接着,我们将所有属性划分为两两互斥的子集——全局属性、上下文属性与局部属性,并将其与对应空间尺度提取的视觉特征耦合;最后,设计一种跨样本、子集感知的蒸馏机制——当样本被误分类时,SAGE定位责任属性子集,从记忆库中检索高置信度原型,并对相应特征分支施加KL散度约束,帮助模型正确理解误判来源,从而有效提升模型表现。

图1. 零样本学习中的属性被划分为全局属性、上下文属性与局部属性三个子集(左)。其中,勾号表示预测属性与真实标签匹配,叉号表示不匹配。三个多尺度视觉分支分别与相应的属性子集对齐,它们的融合结果用于预测完整的属性向量(右)。此处的勾号代表施加KL散度惩罚,叉号则代表不施加。

图2. SAGE的模型框架


13MR-COSMO:面向查询驱动三维分割的视觉-文本记忆检索与跨模态直接对齐方法

MR-COSMO: Visual-Text Memory Recall and Direct CrOSs-MOdal Alignment Method for Query-Driven 3D Segmentation

论文作者:李查德,张朋举,吴毅红

近年来,视觉-语言模型在三维领域的快速发展显著推动了基于文本查询的点云处理研究。然而,现有方法在点级分割任务中表现受限,主要原因在于三维与文本特征对齐不足,导致局部几何特征难以与本文语义建立有效联系。为此,我们提出MR-COSMO,即“视觉文本记忆召回与直接跨模态对齐方法”。该方法通过专门设计的跨模态直接对齐模块,在三维点云与文本及二维图像数据间建立显式对应关系;同时引入视觉-文本记忆模块,构建多源特征库,用于存放文本特征、视觉特征及其映射关系,并在注意力机制下实现动态知识召回,增强场景感知与语义理解能力。该机制使几何与语义特征实现精确融合,有效提升三维场景理解的细粒度表现。我们在多种三维任务基准上进行了实验,包括指令式分割、参照式分割和语义分割,结果表明我们的方法在各项评测中均取得领先性能,验证了其有效性与泛化能力。

提出网络的总体结构示意图。给定点云、图像和文本输入后,点云首先被体素化。随后,我们分别通过 MLP、体素编码器、图像编码器和大型语言模型(LLM)编码器提取四种不同的特征表示。这些异构特征经由我们提出的直接跨模态对齐模块进行统一,生成对齐特征。接着,对齐特征通过多层 Transformer 编码-解码结构进行进一步特征细化。随后,检测头生成候选框预测,并在每个检测区域内提取点级特征。将其与文本查询特征共同输入到所提出的记忆模块中,该模块利用存储的跨模态映射作为先验知识进行特征增强。最后,额外的分类器对融合后的特征进行处理,输出基于查询驱动的三维分割结果。


14.Sparse3DPR: 基于稀疏RGB视图的免训练三维场景分层解析与任务自适应子图推理

Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views

论文作者:冯海达,卫浩,徐泽文,王浩霖,李查德,吴毅红

近年来,大型语言模型(LLMs)在三维场景理解领域展现出巨大的应用潜力。特别地,免训练的三维场景理解方法因其灵活性和泛化能力而备受关注,但实际应用中往往面临精度与效率的双重挑战。针对这些问题,我们提出了一种新颖的免训练框架Sparse3DPR,其仅需稀疏RGB视图输入,便可有效利用预训练LLMs强大的推理能力,实现开放式(open-ended)场景理解。具体而言,我们创新性地构建了一种分层平面增强场景图(HPSG),其支持开放词汇,并采用主导平面结构作为空间锚点,从而实现更清晰的推理链路和更可靠的高层语义推断。此外,我们设计了任务自适应子图提取方法,可动态过滤与任务无关的信息,有效降低场景上下文噪声,显著提升三维场景推理的效率与精度。Sparse3DPR在Space3DBench测试中较ConceptGraphs方法实现了28.7%的EM@1指标提升和78.2%的推理加速。在ScanQA和SQA3D基准上,其性能与训练方法不相上下,更多的真实世界场景实验进一步验证了该框架的鲁棒性和泛化能力。

Sparse3DPR总体框架概览


15.AdaField: 基于物理信息预训练和流场条件自适应的可泛化表面压力场建模

AdaField: Generalizable Surface Pressure Modeling with Physics-Informed Pre-training and Flow-Conditioned Adaptation

论文作者:邹俊泓,仇伟,孙振旭,张小梅,张兆翔,朱翔昱

本文提出了一种名为 AdaField 的自适应场学习框架,旨在解决空气动力学子领域中数据稀缺的难题。深度学习模型在数据充足的空气动力学领域,如汽车,表现良好,但在数据稀缺的领域(如列车、飞机)泛化能力差,且不同数据在几何尺度和流动条件上存在显著差异,进一步阻碍了模型通用性。AdaField 在大规模公共数据集上进行预训练,并能有效地迁移到数据受限的子领域。其包含三个关键组件:

  1. Semantic Aggregation Point Transformer (SAPT):高性能骨干网络,它集成了向量自注意力和语义聚合模块,用于处理点云并提取几何特征。
  2. Flow-Conditioned Adapter (FCA):参数量较少的adapter模块,通过流场条件调制将流场信息注入特征中,通过微调该模块来实现不同流场条件的适应。
  3. Physics-Informed Data Augmentation (PIDA):基于NS方程,系统地对现有数据进行尺度和速度上的缩放,扩大训练数据分布,增强模型对未见几何和速度的泛化能力。

AdaField在汽车数据集DrivAerNet++上取得了SOTA性能。更重要的是,通过在DrivAerNet++上预训练并在列车和飞机场景上进行微调,AdaField显著降低了预测误差,展现出强大的跨域泛化能力。

1. AdaField整体框架示意图

2. AdaField网络结构图


16.基于细粒度表征的车道拓扑推理

Fine-Grained Representation for Lane Topology Reasoning

论文作者:徐国庆、李毅恒、杨阳

本研究针对自动驾驶场景中车道拓扑推理(Lane Topology Reasoning)这一关键问题展开,旨在提升车辆对复杂道路场景的拓扑推理能力。车道拓扑推理需要检测车道中心线与交通要素,并推断它们之间的拓扑关系,如车道连通性及与交通要素的关联。传统方法依赖繁琐的手工规则与后处理步骤,难以在复杂环境中保持稳定性能和泛化能力。近年来,端到端的统一框架逐渐成为主流,通过将车道与交通要素的检测及其关系推理整合为单一任务,实现整体优化。现有研究如 TopoNet 与 TopoLogic 等通常将每条车道视为一个整体实例(instance-level)进行建模,用单一查询(query)预测整条车道的关键点及其与其他车道的关系。然而,这种实例级表征难以较好地表达形状复杂、局部变化显著的车道。为此,本文提出 TopoFG,从细粒度层面建模车道结构。TopoFG 将每条车道表示为一系列细粒度查询(fine-grained queries),精准捕捉局部几何变化和结构细节。在此细粒度表征的基础上,进一步引入层次先验提取器、区域聚焦解码器及鲁棒边界点拓扑推理模块,以联合实现车道拓扑关系的推断。其中,边界点推理模块通过对车道起止点查询建模确定连通关系,并采用去噪机制增强结果的稳健性。

方法框架图,包括:层次先验提取器、区域聚焦解码器和鲁棒边界点拓扑推理模块


17. 融合KAN局部性与特征漂移补偿投影的无数据回放连续人脸伪造检测

Unifying Locality of KANs and Feature Drift Compensation Projection for Data-free Replay based Continual Face Forgery Detection

论文作者:张田硕,彭思然,高丽,张浩源,朱翔昱,雷震

随着人脸伪造技术的快速迭代,伪造检测器必须能持续学习新的攻击手段,这使其成为一个连续学习问题。然而,传统模型在学习新任务时,往往会严重“灾难性遗忘”旧知识。

Kolmogorov-Arnold网络(KANs)因其激活函数具有“局部性” ,理论上允许模型通过修改局部函数来学习新任务,而不影响其他区域,因此天然适合连续学习 。但是,KANs在实际应用中面临两大挑战:1)其样条函数不适用于高维图像数据,而其他适用图像的激活函数又缺乏局部性 ;2)在连续学习中,不同任务的特征分布重叠,会导致KANs重复修改相同区域,最终同样导致遗忘 。为解决上述问题,本文提出了一种基于KAN的连续人脸伪造检测框架(KAN-CFD) 。该框架由两大核心组件构成:

(1)域增量分组KAN检测器 (DG-KD):该检测器创新地使用域特定的径向基函数(RBFs)组合来构建激活函数。这使其在能够拟合高维图像输入的同时,保留了连续学习所必需的局部性和局部可塑性。

5. 域增量分组KAN检测器

(2)基于KAN漂移补偿投影的无数据特征分离策略 (FS-KDCP):为避免特征重叠,该策略在不存储(Replay)旧任务原始数据的前提下,仅保留旧特征。它引入了一个KAN投影(KDCP)模块,用于建模和补偿因模型迭代(Backbone演进)而产生的“特征漂移。通过将存储的旧特征投影到当前特征空间,该策略成功地分离了新旧任务的特征分布,确保了DG-KD不同域的输入互不重叠。

6. 基于KAN漂移补偿投影的无数据特征分离策略和KAN-CFD完整框架

大量的实验结果证明,本文提出的KAN-CFD框架取得了SOTA性能,在各项指标上均优于现有方法,并显著降低了模型的遗忘率。


18.WorldRFT: 强化学习微调世界模型的端到端自动驾驶方法

WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving

论文作者:杨鹏轩、卢奔、夏中谱、韩超、高胤峰、张腾、詹锟、郎咸朋、郑宇鹏、张启超

本文提出一种面向端到端自动驾驶的隐空间世界模型和强化学习微调框架,旨在解决现有自监督隐空间世界模型中重建导向表征与自动驾驶规划需求错位的问题。框架包含三大核心模块:空间感知世界编码器(SWE,Spatial-aware World Encoder)融合基础模型提升感知能力;分层规划细化(HPR,Hierarchical Planning Refinement)将规划分解为目标区域定位等子任务,通过局部感知迭代优化提取规划关键特征,显著提升规划质量;基于GRPO方法和碰撞感知奖励的强化学习微调,实现主动避撞,为端到端自动驾驶提供了更安全高效的解决方案。该工作在nuScenes和NavSim基准上表现优异,nuScenes 碰撞率仅为0.05%,和LAW相比降低 83%,在NavSim上仅用相机输入达到87.8分,接近引入激光雷达的SOTA方法(88.1),并且已经成功应用于理想汽车的端到端自动驾驶AD Max系统。

WorldRFT方法框架图


19.HDGS:面向城市驾驶场景的分层动态高斯溅射(※Oral

HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes

论文作者:戈福东,高晋,王汉石,张一伟,王珂,胡卫明,张志鹏

本文针对大规模动态3DGS中实现高保真且存储高效的运动表示这一关键挑战展开研究。动机源于一个事实:现有城市级场景建模方法依赖数量庞大且无结构的独立高斯基元,面临严重的可扩展性瓶颈。受近期压缩研究的启发,我们尝试利用锚点驱动方法来解决这一问题。然而,这一过程并非易事。探索性实验表明,将该范式直接应用于动态城市场景会导致性能退化。我们将原因归结为层次化锚点设计造成的动态信息丢失。为此,我们提出了分层动态高斯溅射(HDGS)框架,以适配基于锚点的高斯表示于四维空间。具体而言,首先构建局部支撑网络以增强锚点间一致性,从而缓解深层结构中监督衰减引发的几何与外观断裂;其次,通过自粗到细的运动分解机制,高层锚点负责建模全局运动,而低层锚点对其进行残差细化;最后,引入结合全局几何约束与局部像素线索的混合监督机制,以缓解稀疏激光雷达下的几何不一致问题。大量实验结果表明,HDGS在保持甚至提升渲染质量的同时,存储需求得以降低。

HDGS的方法流程示意图


20.MMhops-R1:多模态多跳推理

MMhops-R1: Multimodal Multi-hop Reasoning

论文作者:张涛,张子琦,马宗扬,陈禹昕,李兵,原春锋,王光庭,饶峰云,单瀛,胡卫明

现实世界的复杂挑战需要模型具备多模态多跳推理能力,即迭代地整合跨模态信息与外部知识。然而,现有的多模态大语言模型(MLLMs)主要局限于单步推理,同时现有的基准数据集也不足以评估和推动更复杂的多跳能力。为了弥合这一差距,我们首先提出了一个全新的、大规模的基准数据集MMhops。该数据集包含“桥接”和“比较”两种挑战性任务,迫使模型必须通过整合外部知识来动态构建复杂的推理链。针对MMhops带来的挑战,我们进一步提出了MMhops-R1框架。这是一个新颖的多模态检索增强生成(mRAG)框架,它创新性地利用强化学习来优化模型。这使得模型能够自主规划推理路径、制定针对性查询并综合多层次信息,从而克服了传统mRAG框架中固定流程的限制,实现了动态推理。

图1.不同推理类型对比:(A) 早期知识型视觉问答:单步视觉识别后进行知识检索。 (B1) 桥接推理:基于单张图像的多步顺序推理。 (B2) 比较推理:跨图像实体识别和对比分析。

图2.MMHops 数据集的多阶段构建过程。


21.融合多样化分配策略的 DETR 框架

Integrating Diverse Assignment Strategies into DETRs

论文作者:张一伟,高晋,王汉石,戈福东,罗冠,胡卫明,张志鹏

标签分配是目标检测器的重要组成部分,尤其在 DETR 框架中,一对一匹配虽具端到端的优雅性,但因监督稀疏导致收敛缓慢。现有一对多方法虽能增强监督,却往往依赖复杂的特定结构且缺乏统一设计。本文系统研究了“一对多”监督,发现性能提升源于分配策略的多样性而非数量。基于此,我们提出LoRA-DETR:一种灵活轻量的框架,可在任意 DETR 检测器中无缝集成多样化的一对多策略。该方法在训练时为主干网络插入多个低秩适应(LoRA)分支,每个分支采用不同匹配规则,注入并调控多样监督梯度;推理时移除分支,不增加计算开销。该设计在保持结构简洁的同时实现鲁棒联合优化。实验表明,LoRA-DETR 能以高效方式融合多种监督策略,在不牺牲模型优雅性的前提下显著提升检测性能。

图1. 模型结构

图2. Query同时参与多种标签分配策略


22.VAGU & GtS:用于视频异常联合定位与理解的基于大语言模型的基准数据集与框架

VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding

论文作者:高诗博,杨沛沛,刘扬扬,陈懿,朱涵,张煦尧,黄琳琳

视频异常检测(VAD)旨在识别视频中的异常事件并确定其发生的时间区间。当前主流的VAD方法主要分为两类:一类是基于DNN的传统方法,侧重于时间定位;另一类是基于LLM的新兴方法,更强调语义理解。异常理解和定位对于全面的视频异常检测都至关重要,并且可以相互补充。然而,现有的模型或数据集都无法同时支持这两项任务。为了解决这一问题,我们引入了VAGU(视频异常定位与理解),这是首个整合这两项任务的基准数据集。每个VAGU实例都包含异常类别、语义解释、精确时间定位和视频问答的标注。我们还提供了多项选择题形式的视频问答在一定程度上消除了主流方法使用LLM打分的偏见。基于该数据集,我们提出了“粗看后细察”(GtS)框架,这是一个由文本提示引导的免训练框架,它首先实现对高概率异常区域的快速粗略定位,然后针对这些候选区域进行详细的异常解释和时间边界优化。此外,我们还提出了能够联合评估语义可解释性和时间精度的JeAUG指标,该指标联合评估语义可解释性和时间精度,克服了传统指标只能针对异常时序或异常理解其中一方面进行评估的局限性。

图1. GtS框架流程图

图2.主流开源模型在使用GtS框架前后的推理速度和检测性能变化


23.CACMI:基于上下文感知的跨模态交互实现显式时序-语义建模的密集视频字幕生成

CACMI: Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction

论文作者:贾明达,孟维亮,傅增煌,李毅恒,曾琪,张轶凡,鞠昕,许镕涛,张吉光,张晓鹏

密集视频字幕生成用于联合定位和描述未剪辑视频中的显著事件。近年来的方法主要集中在利用额外的先验知识和先进的多任务架构以实现竞争性的性能。然而,这些流程依赖于隐式建模,使用帧级或碎片化的视频特征,无法捕捉事件序列之间的时间连贯性和视觉上下文中的全面语义。为了解决这一问题,我们提出了一种显式时间-语义建模框架,称为上下文感知的跨模态交互(CACMI),它同时利用视频中的潜在时间特征和文本语料库中的语言语义。具体而言,我们的模型由两个核心组件组成:跨模态帧汇聚通过跨模态检索聚合相关帧,以提取时间上连贯的、与事件对齐的文本特征;上下文感知特征增强利用查询引导的注意力,集成视觉特征与伪事件语义。我们在 ActivityNet Captions 和 YouCook2 数据集上进行了充分的实验,结果表明 CACMI 在密集视频字幕生成任务上达到了最先进的性能。

图1.我们的CACMI框架。CACMI采用了一种通过检索增强生成的范式用于密集视频字幕生成(DVC)任务。该模型使用预训练好的CLIP图像编码器提取帧级特征。(a) 跨模态帧聚合(CFA)模块由两个协同组件组成:事件上下文聚类通过聚合时间和语义一致的帧率级特征生成聚类事件表示,事件语义检索通过余弦相似度从语料库匹配相关的语义信息,产生检索到的语义特征。(b) 上下文感知特征增强(CFE)。该模块促进检索到的文本特征与视觉表示之间的跨模态交互,弥合模态间的差距以生成增强的帧率级特征。最后,我们使用一个多任务的Transformer生成事件定位和字幕生成的联合输出。

图2.CACMI与目前先进的方法对比,在事件定位和字幕生成质量上都表现更加出色


24.HGATSolver: 面向流固耦合的异构图注意力求解器(※Oral

HGATSolver: A Heterogeneous Graph Attention Solver for Fluid–Structure Interaction

论文作者:张钦奕、王泓、刘思耀、林海川、曹林颖、周小虎、陈晨、王双翌、侯增广

流固耦合是心血管模拟领域的核心问题,其数值模拟通常计算成本高昂。现有神经算子难以精确学习流、固两种物理域中截然不同的动力学规律,且在耦合界面处易出现数值不稳定。

为此,团队提出了HGATSolver。受启发于分块积分算子思想,创新地将系统建模为异构图,为流体、固体及界面区域分别定义不同的节点和边类型,从而将物理结构直接编码为模型的结构化先验。这使得模型通过类型感知的消息传递机制,分别学习域内动力学和跨域耦合关系。

为进一步提升求解的稳定性和精度,设计物理条件门控机制(PCGM)作为可学习的自适应松弛因子,有效抑制显式时间积分中的误差累积;并引入域间梯度平衡损失(IGBL),使模型能够根据预测不确定性动态调整流体与固体区域的优化权重。

在两个新构建的FSI基准数据集和一个公开数据集上进行验证,结果表明HGATSolver均达到了最优性能,尤其在流体-固体界面附近表现出更高的精度。该工作有望为AI4S中多物理场耦合系统的智能求解提供有效且通用的学习框架。

HGATSolver的主要框架


25.VasoMIM:面向血管分割的血管解剖感知掩码图像建模

VasoMIM: Vascular Anatomy-Aware Masked Image Modeling for Vessel Segmentation

论文作者:黄德兴,周小虎,桂美将,谢晓亮,刘市祺,王双翌,项天宇,马瑞泽,肖怒放,侯增广

从X射线血管造影图像中准确分割出血管,对于辅助医生进行高效的临床诊断与治疗决策至关重要。然而,标注数据的稀缺为训练分割模型带来了巨大挑战。自监督学习,特别是掩码图像建模(Masked Image Modeling,MIM),能够有效利用大规模未标注数据学习可迁移的表征,从而显著降低对下游分割任务的标签依赖。但受限于血管像素与背景像素间严重的类别不平衡,现有的MIM方法往往难以有效捕捉细微的血管解剖结构,导致所学到的血管表征不佳。

为解决这一难题,本研究提出了“血管解剖感知掩码图像建模”(VasoMIM),其核心思想是将解剖学先验知识引入到预训练过程中。具体而言,VasoMIM包含两个互补的模块:解剖引导掩码策略和解剖一致性损失。前者优先对富含血管信息的patch进行掩码操作,迫使模型专注于重建血管相关区域;后者则强制要求原始图像与重建图像在血管语义层面保持一致,从而显著增强了血管特征表示的判别能力。实验结果表明,VasoMIM在三个基准数据集上均取得了当前最佳的性能。

图1. VasoMIM的结构示意图

图2. 左:预训练期间,在被掩码的patch中,包含血管的patch所占的比例;右:预训练过程中的每个patch的掩码率。


26.大模型驱动社交媒体智能体的真实基准测试

SoMe: A Realistic Benchmark for LLM-based Social Media Agents

论文作者:薛迪展,崔静,钱胜胜,胡传锐,徐常胜

由大语言模型(LLMs)驱动的智能体近期展现出令人印象深刻的能力,并在社交媒体平台上日益受到关注与欢迎。尽管LLM智能体正在重塑社交媒体的生态格局,目前仍缺乏对其在媒体内容理解、用户行为洞察以及复杂决策制定等核心能力方面的系统性评估。为应对这一挑战,我们提出了SoMe——一个开创性的基准测试平台,专为评估配备多种工具(用于访问与分析社交媒体数据)的社交媒体智能体而设计。SoMe 包含多样化的8类社交媒体智能体任务、来自多个社交媒体平台及外部网站的 9,164,284 条帖子、6,591 个用户档案、25,686 份报告,以及经过精细标注的 17,869 个任务查询。相较现有面向社交媒体任务的数据集与基准,SoMe 首次提供了一个兼具多样性与真实性的评测平台,支持基于LLM的智能体执行各类实际社交媒体任务。通过广泛的定量与定性分析,我们首次系统性揭示了主流具备智能体能力的LLM在真实社交媒体环境中的表现,并识别出若干关键局限:评估结果表明,当前无论是闭源还是开源的LLM,尚无法令人满意地完成社交媒体智能体任务。SoMe 为未来社交媒体智能体的研究与发展,提供了一个兼具挑战性与重要意义的试验场。

SoMe中社交智能体的工作流程图:社交媒体智能体通过调用数据获取、管理与分析等工具进行交互,从而生成针对用户查询的答案;该答案随后在大语言模型(LLM)评分器的辅助下进行评估。


27.基于双工奖励优化的测试时组合式图像检索

Duplex Rewards Optimization for Test-Time Composed Image Retrieval

论文作者:周浩樑,张飞飞,徐常胜

组合式图像检索(Composed Image Retrieval,CIR)通过将参考图像与修改文本相结合,以检索目标图像。近年来,零样本(Zero-Shot)CIR因无需人工标记的三元组数据而备受关注。然而,这种范式不可避免地需要额外的训练语料库、存储和计算资源,限制了其实际应用。受测试时自适应(TTA)进展的启发,本研究提出了测试时CIR(TT-CIR)范式,旨在在减少计算资源消耗的同时,使模型有效适应并精准检索测试样本。本研究发现,当前主流的基于奖励机制的TTA技术面临两个关键挑战:一是修改受限的奖励池,阻碍了模型对语义相关候选奖励的探索;二是保守的知识反馈,抑制了奖励信号对当前数据分布的适应性。针对上述挑战,本研究提出了一种基于双工奖励优化的测试时强化学习(TT-RLDR)框架,结合反事实引导的多项式采样(CMS)策略和双工奖励建模(DRM)模块。CMS通过探索与查询视觉语义相关的候选奖励池,精准发掘有效奖励信号;DRM则生成稳定且适应性强的双工奖励,指导模型适应当前测试数据。在主流CIR基准测试中,该方法在检索准确率和效率上均优于现有方案。

TT-RLDR整体架构图,包括两个关键组件:一个反事实引导多项式采样(CMS)策略和一个双工奖励建模(DRM)模块。


28.I2CD:面向组合零样本学习的基于解构-组合-再解构的可逆因果框架

I2CD: An Invertible Causal Framework for Compositional Zero-Shot Learning via Disentangle-Compose-Disentangle

论文作者:袁召全,王子宁,潘圆康,罗骜,李威,吴晓,徐常胜

组合零样本学习(CZSL)是人工智能领域的一个关键挑战,旨在识别图像中未见过的状态-对象组合。现有方法在状态-对象解耦和学习因果干预不变性表征方面存在局限,导致对未见组合的泛化能力不足。论文针对CZSL任务中的解耦问题,提出了一种新的可逆因果架构,通过解耦-组合-再解耦机制,采用可逆神经网络、因果干预和反事实生成技术,在图像的隐式解耦表空间中对状态/对象进行因果干预,从而生成反事实的新的组合,并对该新组合进行重新解耦,最后在解耦表征、组合表征空间中分别与文本的对齐,实现图像的状态-对象解耦,从而增强组合零样本识别的鲁棒性。实验结果表明,该框架在封闭世界和开世界设置下均达到了最先进的性能,尤其在未见组合上表现突出,验证了所提方法的泛化能力与因果解耦的有效性。

用于组合零样本学习的可逆因果架构图


29. MPI-Mamba:用于磁性粒子成像各向异性图像校准与去模糊的隐空间特征融合Mamba模型

MPI-Mamba: Latent Feature Fusion Mamba for Anisotropic Image Calibration and Deblurring in Magnetic Particle Imaging

论文作者:张利文,苗肇基,申钰松,卫泽琛,惠辉,田捷

磁性粒子成像(Magnetic Particle Imaging,MPI)是一种新兴的医学成像技术,具有纳摩尔级体内灵敏度和无辐射的动态实时检测能力,在精准医疗领域展现出巨大潜力。然而,MPI在实际应用中面临着图像各向异性的问题,进而引发图像畸变和边界模糊。现有深度学习方法主要依赖于仿真数据,缺乏真实世界MPI数据集的支持,限制了其在实际场景中的应用效果。

为解决这一难题,本研究历时三年,设计并构建了一个真实世界MPI各向异性图像数据集,涵盖多种灵敏度、分辨率、血管及形状的数据。在此基础上,提出了一种基于Mamba架构的新方法—MPI-Mamba(如图1所示),用于各向异性图像校准。该方法创新性地设计了潜特征融合状态空间模型模块,实现多尺度特征的充分融合,并引入条件潜扩散模型分支,在高度压缩的潜空间中提取图像特征,有效指导校准和去模糊过程。实验结果显示,MPI-Mamba在模拟数据和真实世界MPI数据集上的表现均优于现有方法,显著提升了各向异性图像的校准与去模糊效果。

网络结构图


30.通过鲁棒时域自集成提升脉冲神经网络的鲁棒性–准确率权衡

Boosting the Robustness-Accuracy Trade-off of SNNs by Robust Temporal Self-Ensemble

论文作者:王纪航,赵东城,陈若霖,张倩,曾毅

脉冲神经网络(Spiking Neural Networks,SNNs)作为一种兼具能效与类脑特性的计算模型,其对抗扰动的脆弱性缺乏系统理解。本文从时域集成的视角重新审视SNN的对抗鲁棒性,将网络视为由离散时间步上不断演化的子网络集合。该视角揭示了两个关键但尚未被充分研究的问题:其一,单个时间子网络的易损性;其二,对抗脆弱性在时间维度上的可迁移性。为解决上述问题,本文提出了一种名为“鲁棒时域自集成(Robust Temporal self-Ensemble,RTE)”的训练框架。RTE在提升各时间子网络鲁棒性的同时,有效抑制了对抗扰动在时间上的迁移。该方法通过统一的损失函数将两类目标融合,并引入随机采样策略以实现高效优化。大量基准实验结果表明RTE在鲁棒性–准确率权衡方面显著优于现有训练方法。进一步分析显示,RTE能够重塑SNN的内部鲁棒性分布,使其决策边界更加稳健且具有时间多样性。

(a)子网络的脆弱性由其对最敏感输入扰动的反应所刻画。(b)最小化脆弱性在时间维度上的可迁移性,可以减少子网络间的共同弱点,从而提升整体集成鲁棒性。(c)不同训练方法得到的鲁棒性-准确率权衡效果,RTE在更困难的数据集上表现显著更好。


31.基于正交表征的多维神经解码脑机接口

Multi-dimensional Neural Decoding with Orthogonal Representations for Brain-Computer Interfaces

论文作者:田凯茜,赵圣嘉,张予涵,余山

传统脑机接口系统主要专注于单一运动变量的解码,难以支持需要同时提取多个相关运动维度的自然、高带宽神经控制。本文提出了多维神经解码(MND)任务,能够从单一神经群体记录中同时提取多个运动变量(方向、位置、速度、加速度)。MND面临两个核心挑战:从共享皮层表征解码相关运动维度时的跨任务干扰,以及跨会话、被试和范式的泛化问题。

为解决这些挑战,研究团队提出了OrthoSchema框架,这是一个受皮层正交子空间组织和认知模式重用启发的多任务框架。OrthoSchema通过强制表征正交性来消除跨任务干扰,并采用选择性特征重用迁移来实现少样本跨会话、被试和范式适应。在猕猴运动皮层数据集上的实验表明,OrthoSchema在跨会话、跨被试和具有挑战性的跨范式泛化任务中显著提高了解码精度,在微调样本有限时性能提升更为显著。消融研究证实了所有组件的协同效应至关重要,OrthoSchema能够有效建模跨任务特征并捕获会话关系以实现鲁棒迁移。

图1.多维神经解码中的关键挑战。(A) 对多样化神经信号并行解码的需求不断增长。(B) 在跨会话、被试和任务的分布偏移下泛化能力有限。

图2.OrthoSchema框架概述。尖峰数据通过全局卷积层处理,然后通过LSTM块(可替换)获得潜在表征。在潜在空间中应用正交性约束。模型包括用于方向分类和手部位置、速度、加速度回归的多个解码头。训练期间使用会话/被试分类头来建模分布偏移。推理时移除会话分类组件,选择性重用参数进行少样本微调。


32.基于能量的神经群体动力学自回归生成

Energy-based Autoregressive Generation for Neural Population Dynamics

论文作者:葛宁凌,戴思诚,朱宇,余山

计算神经编码模型是深入理解大脑机制、建模复杂神经群体动态的核心途径。然而,该领域长期受限于高保真度建模与计算效率的双重瓶颈。具体来说,预测模型虽然高效,却难以充分捕捉神经活动固有的试验间变异性;基于VAE的方法虽能通过潜空间灵活采样,却无法精确再现复杂的群体和单神经元统计特性;而近期备受关注的扩散模型(如LDNS)尽管能有效建模统计特性,却因其迭代去噪机制导致计算成本高昂,严重影响生成效率。

为有效解决这些问题,本文提出Energy-based Autoregressive Generation (EAG) 框架,基于energy score仅通过单次前向传播即可实现高效高质的神经生成。研究结果表明,EAG不仅取得SOTA的生成质量,高度还原真实神经活动;还显著提升生成效率,相较于扩散模型达到96.9%的效率提升。此外,EAG还具有强大的泛化能力,对未曾见过的行为上下文生成神经数据;其生成的数据可帮助提升运动脑机接口的解码准确率,提升最高可达54.7%。本工作为兼具计算效率和生物真实性的神经群体建模奠定基础,具有重要的神经科学研究和神经工程应用潜力。

图1. EAG相较于LDNS取得了质量和效率上的双重提升

图2. EAG具有强大的泛化能力,对未见过的行为上下文生成神经动态


33.基于多模态大语言模型的广义多图像视觉定位

GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models

论文作者:郑姝榕,朱优松,赵弘胤,杨帆,詹宇飞,唐明,王金桥

多模态大语言模型在单图像定位和通用多图像理解方面取得了显著进展。近年来,一些方法开始探索多图像定位,但受限于单目标定位和任务类型的局限,缺乏广义定位的统一建模。为此,我们提出 GeM-VG,一种具备广义多图像视觉定位能力的多模态大语言模型。我们根据跨图像线索依赖和推理需求对现有任务进行分类整理,并构建 MG-Data-240K 数据集,以弥补现有数据在目标数量和图像关联性上的不足。针对多样化任务的鲁棒性挑战,我们提出混合强化微调策略,结合链式思维推理与直接回答,利用其互补优势,并通过规则奖励引导优化,有效提升模型感知与推理能力。实验表明,GeM-VG 在广义定位任务中具备优秀性能:在多图像定位任务上,MIG-Bench 和 MC-Bench 分别超越先前领先 MLLMs 2.0% 和 9.7%;在单图像 ODINW 上提升 9.1%。此外,模型在通用多图像理解任务上也保持了先进性能。

图1. GeM-VG模型整体架构

图2.强化微调策略框架


34.基于功能感知神经元分组的 LLM 结构化剪枝泛化能力提升方法

Improving Generalization in LLM Structured Pruning via Function-Aware Neuron Grouping

论文作者:于涛,安永琪,朱宽,朱贵波,唐明,王金桥

后训练结构化剪枝是压缩大语言模型(LLM)的重要技术路径。然而,当少样本校准集无法充分覆盖预训练数据分布时,现有方法在下游任务上往往泛化能力受限。针对这一问题,我们提出 FANG(Function-Aware Neuron Grouping),一种功能感知的后训练剪枝框架,通过识别并保留对特定功能关键的神经元,减轻由校准集偏差带来的性能退化。

FANG 首先根据神经元所处理的语义上下文类型,将具有类似功能的神经元分组,并对各组分别进行剪枝;在组内重要性评估时,对与该功能高度相关的 token 赋予更高权重。同时,FANG 显式保留在多类上下文中均有贡献的多功能神经元。为在稀疏率与性能之间取得更佳权衡,FANG 还依据不同模块的功能复杂度自适应分配稀疏率。实验结果表明,FANG 在基本保持语言建模能力的前提下显著提升了下游任务表现。结合 FLAP 与 OBC 两种代表性剪枝方法使用时,FANG 取得当前最优结果,在 30% 和 40% 稀疏率下,平均准确率较原方法提升 1.5%–8.5%。

功能感知神经元分组(FANG)方法框架


35.基于质量感知的语言条件局部自回归异常合成与检测

Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection

论文作者:钱隆,朱炳科,陈盈盈,唐明,王金桥

工业异常检测普遍受制于异常样本稀缺与分布差异,现有扩散/粗修补管线在低分辨去噪、语义可控性与生成成本上存在低分辨率瓶颈/边界缝隙、语义可控性差、训练等权导致劣质合成干扰优化等问题。为此,我们提出了一套“可控合成 × 质量自适应学习”的闭环解决方案:其一,ARAS(语言条件、掩码局部的自回归编辑器)在VQ-VAE离散token空间施加Hard-Gate算子,仅重写掩码内token、冻结上下文,从而保持材质微结构与相位连续,并以自然语言精确控制缺陷的类型/形状/尺度/位置;其二,QAW(质量感知重加权)将CLIP图文一致性映射为样本级连续权重,在不丢弃数据多样性的前提下降低训练方差、抑制低质合成对优化的干扰。

在 MVTec AD、VisA、BTAD 三个基准上,QARAD在图像级/像素级AUROC均实现一致领先,数据集均值分别达到 99.7/99.8、98.9/99.8、96.7/98.0;同时,ARAS避免迭代去噪,在 1024×1024 分辨率下合成速度较扩散式管线约快 5×,且检测阶段推理时延不增加,体现出准确性与效率兼优的工程价值。代码已在https://github.com/neymarql/QARAD 开源。

图1. ARAS与Quality-Aware Weighting 的设计动机

图2. ARAS-QARAD 端到端框架图


36.AnomalyMoE: 无需语言的通用异常检测通才模型

AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection

论文作者:古兆鹏,朱炳科,朱贵波,陈盈盈,葛卫,唐明,王金桥

异常检测是跨越众多领域和模态的一项关键任务,但现有方法通常高度特化,仅为特定领域或特定异常类型设计,难以检测其设计领域之外的异常,这极大地限制了现有异常检测方法的通用性。而现有的统一异常检测方向的尝试要么局限于局部结构缺陷,要么依赖于复杂的组件分割和大型语言模型,计算开销大且仍然无法处理组件缺失等复杂情况。为解决这些问题,我们提出了一种名为AnomalyMoE的无需语言的通用视觉异常检测框架。该方法的核心思想是利用混合专家架构,将复杂的异常检测问题分解为三个独立的语义层级:局部结构异常、组件级语义异常和全局逻辑异常。AnomalyMoE为每个层级配备了专门的基于特征重建的专家网络,使其能够在一个统一模型内协同理解和检测多种类型的异常。此外,我们还引入了专家信息排斥(EIR)模块以促进专家的多样性,并引入了专家选择平衡(ESB)模块以确保所有专家得到充分利用。

在涵盖工业、3D点云、医疗影像、视频监控和逻辑异常等领域的8个具有挑战性的数据集上进行的大量实验表明,AnomalyMoE的性能不仅全面超越了现有的通用模型,还显著优于各自领域中的专用方法。

图1. AnomalyMoE 与现有异常方法在不同领域数据集上的性能对比

图2. AnomalyMoE 整体结构图


37.从大规模网络数据的人类轨迹中学习城市环境下语言引导的具身导航

UrbanNav: Learning Language-Guided Embodied Urban Navigation from Web-Scale Human Trajectories

论文作者:梅阳鸿,杨易蓉,郭龙腾,汪群博,于明明,何兴建,吴文峻,刘静

在复杂城市环境中,如何让智能体仅凭自然语言指令准确导航,一直是具身智能领域的难题。现有方法多局限于仿真或非街道场景,且依赖精确目标(如坐标或图像),难以应对真实城市中嘈杂的语言、模糊的空间指代、多样地标与动态街景等挑战。

为此,研究团队提出 UrbanNav,一个大规模的的语言引导城市导航框架。该方法利用网络规模的城市步行视频,构建了一套高效的自动化导航数据标注流程,将人类真实行走轨迹与基于现实地标的自然语言指令对齐。UrbanNav 数据集涵盖超过1500小时的导航视频和300万组“指令-轨迹-地标”三元组,覆盖丰富多样的城市场景。

基于该数据集,UrbanNav 模型学会了强大的导航策略,在空间推理、抗噪能力和跨城市泛化方面表现卓越。实验表明,其性能显著优于现有方法,首次实现了在真实、开放城市环境中基于自由形式语言指令的稳健导航。这项工作表明,利用大规模网络视频数据有望为具身智能在城市环境中的实际应用提供有效支持,为未来自主机器人在复杂城市场景中实现语言引导导航提供了一种可行路径。

图1. UrbanNav总览。从海量网络步行视频中构建大规模语言-轨迹数据集,训练出能理解复杂自然语言指令的导航策略,仅需少量真实场景数据微调即可实现在未知城市环境中的视觉语言导航。

图2. UrbanNav数据构建流程。包括三个关键步骤:1)相机位姿估计;2)机器人兼容性过滤;3)语言指令生成。


38.SAQ-SAM:面向分割一切模型的语义对齐量化

SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model

论文作者:张静,李志凯,胡诚智,刘学文,顾庆毅

分割一切模型(Segment Anything Model,SAM) 展现了卓越的零样本分割能力,但其高昂的计算成本使得在边缘设备上的部署面临挑战。尽管后训练量化(Post-Training Quantization,PTQ)提供了一种有前景的压缩方案,但现有方法在SAM上效果不佳,具体表现为:

(i) 掩码解码器中存在极端的激活异常值。实验发现,激进的剪裁(甚至缩放100倍)不影响性能而有利于量化。然而,传统的基于分布的量化误差度量并不鼓励这种剪裁。(ii) 通用的量化重建方法忽略了SAM的语义交互性,损害了图像特征与提示意图之间的对齐。

为了解决上述问题,本文提出了SAQ-SAM,从语义对齐的角度提升SAM的PTQ性能。具体来说,提出了感知一致性剪裁,通过度量注意力焦点重叠度误差来支持语义对齐剪裁。此外,提出提示感知重建,利用掩码解码器中的交叉注意力整合图像与提示的交互,从而促进分布和语义的双重对齐。

实验涵盖了不同规模的 SAM 模型及多种任务(包括实例分割、定向目标检测和语义分割),结果表明SAQ-SAM具有显著优势。

图1.掩码解码器中极端激活分布的可视化及不同剪裁方法的性能对比。掩码解码器中的 QK 激活值呈现出高度偏斜的分布,大部分数据集中在一个狭窄的范围内,而异常值可能超出正常范围的180倍。MSE 提供了一个过于宽泛的剪裁范围,而本文提出的感知一致性剪裁(PCC)方法能够更精确地识别异常值。

图2. SAQ-SAM框架。感知一致性剪裁(Perceptual-Consistency Clipping,PCC) 通过最小化注意力焦点相对于全精度模型的偏差,指导 QK 激活值的量化剪裁,从而在语义上保留感知对齐性。提示感知重建(Prompt-Aware Reconstruction,PAR)利用掩码解码器中的现成模块,将图像与提示的交互融入到逐Stage重建中。通过在全精度模型的监督下最小化交互响应误差,量化模型学习到视觉特征与提示意图之间的对应关系,从而在分布和语义层面实现双重对齐。


39.重新审视基于多模态大语言模型的图像质量评估:错误与改进

Revisiting MLLM Based Image Quality Assessment: Errors and Remedy

论文作者:唐榛辰、杨嵩林、彭勃、王梓川、董晶

多模态大语言模型(MLLM)的迅速发展极大地推动了图像质量评估(IQA)任务的进步。然而,一个关键挑战在于:MLLM 的离散 token 输出与 IQA 任务所需的连续质量分数之间存在内在的不匹配。这种差异显著限制了基于 MLLM 的 IQA 方法的性能。以往将离散 token 预测结果转换为连续分数的做法常常会引入转换误差。此外,由于等级类 token(如 “good”)所带来的语义混淆,MLLM 在 IQA 任务中的表现进一步受限,其在相关任务中的原生能力也因此受到削弱。

为解决上述问题,我们首先对以往方法中固有的误差进行了理论分析,并基于此提出了一个简单而高效的框架——Q-Scorer。该框架在 MLLM 流程中引入了轻量级回归模块与专为 IQA 设计的评分 token。大量实验证明,Q-Scorer 在多个 IQA 基准上均取得了最新的性能表现,能够良好地泛化到混合数据集上,并且在与其他方法结合时能进一步提升效果。

图1. 基于 MLLM 的 IQA 方法概览与误差分析。该图展示了 MLLM 在标签转换与分数预测中的适配过程,并重点标出了导致转换误差与语义混淆的关键步骤。

图2. Q-Scorer 概览。该方法通过损失函数 学习输出特定区间的评分 token。随后,将该评分 token 的嵌入向量输入至一个 MLP 中,以回归得到连续的质量分数,并利用 进行优化,从而保证与主观意见分数(MOS)的一致性与无损性。


40.CoGrad3D:一种基于正交梯度融合与空间耦合时间步优化的 3D 生成方法

CoGrad3D: Spatially-Coupled Timestep Optimization with Orthogonal Gradient Fusion for 3D Generation

论文作者:童昊阳,王宏博,刘进,王琦,曹杰,赫然

分数蒸馏采样推动了文本到3D生成的进展,但现有方法常难以生成细节丰富且多视图一致的3D资产。这些局限性源于对精细细节的引导不均、对单视图优化的过度依赖,以及扩散时间步和相机选择的过度随机性等问题,导致纹理模糊和视图不一致,降低了真实感。为了应对这些挑战,我们提出了CoGrad3D,这是一个统一的生成式精炼框架,它采用了一种持续自适应的优化策略。CoGrad3D 通过根据实时收敛信号动态调整优化焦点,确保了在几何完整性和高保真细节两方面都能取得均衡进展。具体而言,我们提出了一种自适应区域采样策略,该策略重点关注欠收敛的视图区域,从而促进稳定和均匀的优化。为了促进从粗糙几何到精细重建的过渡,我们开发了一种区域感知的时间调度方案,该方案将全局训练动态与局部收敛反馈相结合。此外,我们引入了一种梯度融合机制,该机制整合了来自相邻视角的历史梯度,从而减轻了特定视图的伪影,并促进了连贯3D结构的生成。

CoGrad3D的流程框架


41.UniAlignment:基于语义对齐的统一图像生成、理解、编辑和感知

UniAlignment: Semantic Alignment for Unified Image Generation,Understanding,Manipulation and Perception

论文作者:宋昕洋,王立彬,王卫宁,柳绍桢,郑丹丹,陈景东,李琦,孙哲南

扩散模型在文本生成图像任务上的显著成功,激发了将其能力扩展至多模态任务(包括图像理解、编辑和感知等)的广泛兴趣。这类任务要求模型具备跨视觉与文本模态的高级语义理解能力,尤其是在涉及复杂语义指令的场景中。然而,现有方法往往高度依赖视觉-语言模型(VLMs)或模块化设计进行语义引导,导致架构碎片化和计算效率低下。为应对这些挑战,我们提出了UniAlignment——一种基于单一扩散Transformer的统一多模态生成框架。UniAlignment采用双流扩散训练策略,融合了模态内及跨模态的语义对齐,有效提升了模型的跨模态一致性和指令遵循的鲁棒性。此外,我们还提出了SemGen-Bench,这是一项专为评估复杂文本指令下多模态语义一致性而设计的新基准。大规模多任务和多基准测试结果表明,UniAlignment显著优于现有方法,彰显了扩散模型在统一多模态生成领域的巨大潜力。

UniAlignment模型框架


42.稀疏调优提升预训练模型的持续学习可塑性

Sparse Tuning Enhances Plasticity in PTM-based Continual Learning

论文作者:张桓,樊胜华,董姝妤,郑昱津,汪鼎文,吕凡

在预训练模型上进行持续学习为跨任务的高效适应提供了巨大潜力。然而,现有的大多数方法往往冻结预训练模型参数,并依赖于提示或适配器等辅助模块,从而限制了模型的可塑性。当面对显著的分布变化时,这种策略会导致泛化能力不足。尽管完全微调可以提高适应性,但它同时也可能破坏的预训练知识。本文提出了一种互信息引导的稀疏微调方法,该方法是一种即插即用的策略,通过互信息目标的敏感性选择性地更新少量PTM参数(少于5%)。MIST能够在保持泛化能力的同时实现有效的任务特定适应。为进一步减少任务间干扰,在微调过程中引入了强稀疏正则化机制,通过随机丢弃梯度,使每步更新的参数比例低于0.5%。在标准冻结式方法之前应用MIST,可以持续提升多种持续学习基线的性能。实验结果表明,将MIST集成到多种基线方法中均能显著提高性能。

MIST方法思想


43.TRACE: 变化感知驱动的图结构优化反应条件预测

TRACE: Transformation-Aware Graph Refinement for Reaction Condition Prediction

论文作者:陈雨洁,马腾飞,刘元盛,魏乐义,吴书,曹东升,刘益萍,曾湘祥

化学反应条件的精准预测(如催化剂、溶剂、试剂),是实现智能合成的关键。现有方法通常将反应物与产物独立编码,难以捕捉与条件相关的化学结构变化。为此,本研究提出变化感知的TRACE框架。该框架从原子层面联合建模反应物与产物,然后通过构建动态交互图来直接服务条件预测。其核心包含两大模块:结构感知编码器用于整合原子局部环境信息;动态交互优化模块则自适应推断关键分子间作用,并利用反应中心正则化聚焦化学活性区域。实验表明,TRACE在基准数据集上达到领先水平,尤其在溶剂与试剂预测中优势明显,并在时间迁移、少样本及真实合成场景中展现出卓越的泛化能力与稳健性,为其实际应用奠定了坚实基础。

TRACE框架图




附件: