计算机学院多篇论文被自然语言处理领域国际顶级会议ACL2025录用

发布者:张岩峰发布时间:2025-05-19浏览次数:14

2025年5月16日,第63届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)公布ACL 2025的论文录用消息。计算机学院以必赢线路检测3003为第一单位的18篇论文被ACL 2025录用,其中7篇论文被ACL主会录用,11篇被Findings of ACL录用。

ACL是计算语言学和自然语言处理领域的国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为A类会议,将于2025年7月27日至8月1日在奥地利维也纳举办。

ACL主会录用论文:

1.论文题目:Pixel-Level Reasoning Segmentation via Multi-turn Conversations

作者列表:蔡德娴,杨晓翠,刘永康,王大玲,冯时,张一飞,Soujanya Poria

合作单位:新加坡科技设计大学

简介:现有的视觉感知系统侧重于单轮对话中的区域级分割,依赖于复杂而明确的查询指令。这些系统无法进行像素级推理,也无法理解随交互动态变化的用户意图。为了解决这一问题,该项工作引入了一项新任务,即基于多轮对话的像素级推理分割(Pixel-level Reasoning Segmentation,简称Pixel-level RS),通过多轮交互跟踪不断变化的用户意图,从而进行细粒度分割。为了给这项新任务建立一个评估基准,建立了一个基于多轮对话的像素级推理分割数据集(PRIST),该数据集由来自8.3k多轮对话场景的24k个语句组成,每个样本都带有分割目标。基于提出的数据集PRIST,进一步提出了MIRAS,这是一个支持多轮交互的推理分割框架,它将像素级分割与强大的多轮对话理解集成在一起,生成与用户意图相一致的像素级解释。PRIST数据集和MIRSA框架填补了新任务-像素级推理分割的空白。在PRIST数据集上的实验结果表明,该方法在分割和基于LLM的推理评估指标方面均优于目前主流的专注于分割的基线方法。

2.论文题目:TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

作者列表:孔繁恒,张景远,张鸿志,冯时,王大玲,俞林昊,纪兴光,田雨,张富峥

合作单位:快手

简介:视频独特之处在于它整合了时序元素,包括镜头、场景、动作和属性,以及它们随时间推移的动态关系。然而,现有的视频理解基准测试往往将这些特性分开处理,或仅仅关注特定方面,忽视了视频内容的整体性。为了解决这个问题,该论文提出了一个面向时序的基准测试 TUNA,用于对密集动态视频进行细粒度理解,包含两个互补的任务:视频描述和问答。论文的基准测试具有多样化的视频场景和动态特征,并配备了可解释且稳健的评估标准。本文在 TUNA 上评估了一些领先的模型,从不同维度提供了细粒度的性能评估。这项评估揭示了视频时序理解中的关键挑战,例如有限的动作描述能力、不充分的多主体理解,以及对镜头运动的不敏感性,为改进视频理解模型提供了宝贵的见解。

3.论文题目:Semantic-Eval : A Semantic Comprehension Evaluation Framework for Large Language Models Generation without Training

作者列表:李树胜,李嘉乐,曲奕霏,石薪炜,郭彦良,赫梓伊,王钰博,覃文军

简介:随着大型语言模型(LLM)的日益突出,对其文本生成能力进行评估已成为一项重要的研究挑战。虽然基于LLM的评估方法表现出了强大的性能,但LLM生成过程固有的随机性在一定程度上带来了与人类偏好不一致的不确定性。为了解决这一局限性,提出了Semantic-Eval,这是首个无需训练的框架,旨在根据语义理解评估LLM生成的文本。该框架计算成对文本之间的语义相似性,以评估语义单元的相互依存性,并整合了基于本文图的加权机制,以考虑单个句子的不同贡献。此外,还纳入了一个预先训练好的自然语言推理(NLI)模型,以减轻潜在的语义关系偏差。本文在涵盖四种常见NLP任务的八个数据集上对Semantic-Eval进行了评估。实验结果表明,Semantic-Eval超越了传统的基于N-gram和BERT的评估指标,与人类的判断更加接近,并显示出比小型LLM更高的相关性。不过,它略微落后于GPT-4。最后,本文展示了Semantic-Eval在评估13个大型语言模型生成质量方面的有效性。

4.论文题目:RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts

作者列表:伍铭妍,刘正皓,闫宇坤,李欣泽,于是,曾哲妮,谷峪,于戈

合作单位:清华大学

简介:检索增强生成通过引入外部知识来提升大语言模型的性能。然而,大语言模型在有效利用检索文档中的知识方面仍然面临挑战,常常受到不相关或噪声信息的误导。为了解决这个问题,本文提出了一种知识精炼方法RankCoT,它在生成推理链形式的总结时结合了重排序信号,从而基于给定查询和所有检索文档进行知识精炼。在训练过程中,RankCoT 会提示大语言模型根据查询和单个文档生成推理链候选集。然后对大语言模型进行微调,使其根据所有检索文档直接从这些候选集输出中复现最佳推理链,这就需要大语言模型在生成推理链形式的总结时过滤掉不相关的文档。此外,RankCoT还引入了一种自我反思机制,可以进一步提炼推理链的输出,从而生成更高质量的训练数据。本文的实验证明了 RankCoT的有效性,并展现出其优于其他知识精炼模型的性能。进一步分析表明,RankCoT可以提供更短但有效的精炼结果,从而使生成器能够生成更准确的答案。

5.论文题目:Probing Relative Interaction and Dynamic Calibration in Multi-modal Entity Alignment

作者列表:李晨潇,程经纬,佟强,张富,王彩瑞

简介:多模态实体对齐旨在识别两个不同多模态知识图谱之间的等效实体。当前的方法通过改进嵌入和交叉模态融合取得了重大进展。然而,他们中的大多数依赖于使用损失函数来捕捉模态之间的关系,或者采用一次性策略使用注意力机制直接计算模态权重,这忽略了实体层面模态之间的相对相互作用和模态权重的准确性,从而阻碍了对不同实体的泛化。为了应对这一挑战,本文提出了RICEA,这是一个用于多模态实体对齐的相对交互和校准框架,它根据相对交互动态计算权重,并根据权重的不确定性重新校准权重。其中,本文提出了一种称为ADC的新方法,该方法利用注意力机制来感知每种模态权重的不确定性,而不是像以前的工作那样直接计算每种模态的权重。在5个数据集和22个设置中,本文提出的框架明显优于其他基线。

6.论文题目:Enhancing Neural Machine Translation Through Target Language Data: A kNN-LM Approach for Domain Adaptation

作者列表:阿卜杜热西提·热合曼,刘宏宇,阮俊豪,阿布都克玉木·阿布都拉,罗应峰,肖桐,朱靖波

简介:神经机器翻译(NMT)的领域适应往往依赖大量领域特定的双语平行语料,这在实际应用中往往难以获取。针对该问题,本文探索了仅利用目标语言单语数据进行领域适应的途径。本文在kNN-LM框架下,将目标语相似句子的信息融合到NMT的解码过程。与此同时,利用目标语句子相似度信息实现了对来自相似度不同句子的信息的动态加权。针对非相似部分带来的噪声问题,本文设计了n-gram级别的局部相似片段融合算法。本文方法实现了无需双语语料、即插即用的轻量级领域适应,在专业领域翻译任务中展现出显著的性能提升。

7.论文题目:CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision

作者列表:卢逸飞,叶方华,李建,高强,刘成,罗海波,杜楠,李小龙,任飞亮

合作单位:腾讯集团

简介:论文工作面向Agent研究中的工具调用。作为语言智能体的核心实现范式,通过与外部工具的深度集成,显著拓宽了大语言模型(LLMs)的能力边界。本研究的CodeTool创新地提出分步代码生成框架,基于过程监督有效提升了大语言模型在复杂场景下进行编程式调用工具的能力。在StableToolBench基准测试的核心实验以及在RestBench-TMDB上的泛化实验中,展现出卓越的任务解决能力,两项测试均达到当前最优(SOTA)水平。

Findings of ACL录用论文:

1.论文题目:AnnaAgent: Dynamic Evolution Agent Systerm with Multi-Session Memory for Realistic Seeker Simulation

作者列表:王明,王培东,武琳,杨晓翠,王大玲,冯时,陈雨欣,王碧璇,张一飞

合作单位:中央财经大学,东北师范大学

简介:在人工智能驱动的心理健康研究中,由于伦理和成本限制,研究者借助大语言模型构建对话代理(CAs)模拟来访者。然而,现有方法在动态情绪演化与多疗程会话记忆整合方面存在不足。为此,本文提出AnnaAgent,一个具备情绪与认知动态特性的模拟系统,并引入三级记忆机制以提升仿真真实性。AnnaAgent分为两大智能体群组:动态演化组包含情绪调节器、主诉链生成器与主诉切换器,实现情绪波动与主诉演化的动态控制;多疗程记忆组由情境分析器、状态分析器与记忆检索器组成,支持跨疗程的记忆整合。系统还配备说话风格分析、量表总结与事件触发等辅助模块。初始化阶段,系统基于历史数据生成来访者画像、生活事件与心理状态;对话阶段则根据上下文实时调整情绪、检索记忆并控制主诉问题切换。评估结果显示,AnnaAgent在模拟真实来访者行为方面优于现有方法,更接近真实来访者的表现,更具应用潜力。部分代码(含核心架构)已通过伦理审查并公开https://github.com/sci-m-wang/AnnaAgent。

2.论文题目:Muse: A Multimodal Conversational Recommendation Dataset with Scenario-Grounded User Profiles

作者:王梓汉,杨晓翠,刘永康,冯时,王大玲,张一飞

简介:当前的对话推荐系统主要关注文本。然而,现实世界的推荐设置通常是多模态的,这导致现有研究与实际应用之间存在显著差距。为了解决这个问题,本文提出了Muse,这是第一个多模态对话推荐数据集。Muse包含来自7,000个以服装领域为中心的对话,包含83,148 轮的交互。每个对话都包含全面的多模态交互、丰富的元素和自然的对话。Muse中的数据由基于多模态大型语言模型(MLLM)的多智能体框架自动合成。它创新地从真实场景中获取用户画像,而不是依赖于手动设计和历史数据,从而实现更好的可扩展性,并实现对话模拟和优化。人工评估和LLM评估均证明了Muse中对话的高质量。此外,对三个MLLM进行的微调实验证明了Muse中包含了科学系的推荐和回复模式,证实了其对于多模态对话推荐的价值。

3.论文题目:SemanticCamo: Jailbreaking Large Language Models through Semantic Camouflage

作者:颜季辉,杨晓翠,王大玲,冯时,张一飞,赵垠智

简介:大语言模型 (LLMs) 的飞速发展与广泛应用使得其安全性问题愈发重要。尽管安全对齐广泛地应用于LLMs的训练中,但预训练与安全训练之间的不匹配仍导致了LLMs的安全漏洞。为揭示LLMs潜在的安全隐患并提升其安全性能,该论文从红队角度出发,提出了一种新型越狱攻击框架——SemanticCamo。该框架通过“语义伪装”将原始查询的危险内容替换为较为安全的语义特征,在不改变查询目标的前提下隐藏原始查询的恶意意图,从而绕过LLMs的安全防护。实验结果表明,SemanticCamo在GPT-4o与Claude-3.5等主流模型上的攻击成功率平均超过80%,显著优于现有方法。同时,该框架在面对多种防御机制时仍表现出较强的鲁棒性,表明语义层面的扰动对LLMs的安全构成了严峻挑战,亟需有针对性的对齐策略应对该类攻击。

4.论文题目:Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

作者:刘书良,李欣泽,刘正皓,闫宇坤,杨成,曾哲妮,刘知远,孙茂松,于戈

合作单位:清华大学、北京邮电大学

简介:本文提出了ConsJudge,一种增强大语言模型(LLM)对RAG模型输出进行更准确评估的方法。当前基于LLM的自动评估手段在评估RAG模型的输出时,存在对提示敏感、评判结果不一致的问题。ConsJudge的核心思想是引导LLM结合不同判断维度生成多个评判结果,并通过“评估一致性”机制筛选出最佳的评判,进一步用于直接偏好优化(DPO)训练。实验表明,ConsJudge能在多个RAG模型和数据集上显著提升评估质量,优化模型性能。进一步分析也表明,ConsJudge所生成的判断与更强大模型的评估结果高度一致,展示出其在增强LLM评估可靠性方面的实际应用价值与广阔前景。 

5.论文题目:MWPO: Enhancing LLMs Performance through Multi-Weight Preference Strength and Length Optimization

作者列表:许世越,张富,程经纬,周林峰

简介:直接偏好优化(DPO)提出了基于人类反馈的强化学习(RLHF)的离线替代方案。在DPO中,作为学习基础的每个偏好对通常是通过首先生成对同一指令的多个响应,然后对他们进行标注以指示首选来构建的。然而,当响应高度相似时,弱偏好信号会引入标注噪声,这可能会阻碍模型优化。此外,DPO存在过度优化冗长生成的缺点。一个潜在的原因是偏好数据集中存在长度偏差,这可能会导致长度利用。为了解决这些问题,本文提出了一种基于DPO的多权重偏好强度和长度优化(MWPO)方法。具体来说,本文建议基于隐式奖励边际和响应长度边际重新加权偏好对,通过几何混合将他们统一起来,以生成用于优化的合成权重。该方法允许具有更强偏好信号或更有利长度特征的偏好对对模型参数产生更明显的影响。此外,本文的方法不需要额外的标注器。本文在多个基准的四个不同尺度的模型上验证了本文的方法。本文的方法超越了最先进的(SOTA)基线,在AlpacaEval 2上比DPO高出8.7%,同时在Mistral设置下将生成长度缩短了9.4%。

6.论文题目:Document-Level Relation Extraction with Global Relations and Entity Pair Reasoning

作者列表:张富,颜毅,程经纬

简介:文档级关系提取(DocRE)旨在基于给定的实体从非结构化文本中提取结构化的关系三元组。现有的方法主要分为基于Transformer的模型和基于图的模型。虽然基于Transformer的模型捕获全局上下文信息,但他们通常关注单个实体对,这使得捕获多个实体对之间的复杂交互变得具有挑战性。基于图的模型使用实体或句子作为推理节点构建文档图,但通常缺乏明确的机制来模拟实体对之间的细粒度交互,限制了他们处理复杂关系推理任务的能力。此外,之前的研究没有考虑提前预测所有可能的关系,以协助DocRE任务。为了解决这些问题,本文为DocRE任务提出了一个新的框架,即GREP(全局关系和实体对推理)。GREP利用实体对之间的全局相互依赖性来捕获细粒度的交互,并在实体对级别执行多推理。此外,GREP首次提出了一个辅助任务,提前预测文档中存在的所有可能关系,使模型能够过滤出最不可能的关系。在广泛使用的数据集上的实验结果表明,本文的模型达到了最先进的性能。

7.论文题目:EasyEA: Large Language Model is All You Need in Entity Alignment Between Knowledge Graphs

作者列表:程经纬,鲁成龙,杨琳艳,陈国庆,张富

简介:实体对齐(EA)旨在识别不同知识图谱(KG)中代表相同现实世界对象的实体。传统的EA方法通常在种子实体对的指导下将实体信息嵌入向量空间,并通过计算和比较实体嵌入之间的相似性来对齐实体。随着大型语言模型(LLMs)的出现,新兴方法越来越多地将LLM与传统方法相结合,以利用外部知识并提高EA的准确性。然而,这种集成也引入了额外的计算复杂性和操作开销,并且仍然需要稀缺且昂贵的种子对。为了应对这些挑战,本文提出了EasyEA,这是第一个基于LLM的端到端EA框架,不需要培训。EasyEA由三个主要阶段组成:(1)信息摘要,(2)嵌入和特征融合,(3)候选选择。通过自动化EA流程,EasyEA显著降低了对种子实体对的依赖,同时在各种数据集上展示了卓越的性能,涵盖了跨语言、稀疏、大规模和异构的场景。广泛的实验结果表明,EasyEA不仅简化了EA过程,而且在各种数据集上实现了最先进的(SOTA)性能,为推进EA任务提供了有前景的解决方案。

8.论文题目:An Adaptive Multi-Threshold Loss and a General Framework for Collaborating Losses in Document-Level Relation Extraction

作者列表:许皇明,张富,程经纬

简介:文档级关系提取(DocRE)的目标是识别文档中给定实体对的关系。作为一项多标签分类任务,最常用的方法是引入自适应阈值。具体来说,对于一个实体对,如果预测关系的得分超过阈值,则关系存在。然而,本文观察到两种现象显著削弱了模型在DocRE中的性能:(1)随着标签空间(关系数量)的扩大,模型的性能逐渐下降;(2)该模型倾向于优先预测长尾问题中的高频关系。为了应对这些挑战,本文提出了一种创新的自适应多阈值损失(AMTL),该方法首次提出将标签空间划分为不同的子标签空间(从而减小其整体大小),并为每个子标签空间学习自适应阈值。这种方法允许更精确地调整模型对不同关系的敏感性,减轻与标签空间扩展和长尾问题相关的性能下降。此外,本文的自适应多阈值方法可以被视为一个通用框架,可以无缝集成不同子标签空间中的不同损失,促进多损失的并发应用。实验结果表明,AMTL显著提高了四个数据集上现有DocRE模型的性能,实现了最先进的结果。使用本文的框架进行的多损失并发应用实验表明,性能稳定,优于单损失方法。

9.论文题目:ETRQA: A Comprehensive Benchmark for Evaluating Event Temporal Reasoning Abilities of Large Language Models

作者列表:罗泗港,刘仡男,林东迎,翟莹莹,王斌,杨晓春,刘俊鹏

简介:事件时间推理(Event Temporal Reasoning, ETR)旨在对现实世界中事件与时间、事件与事件之间的关系进行建模与推演。这项能力的掌握程度是衡量大语言模型(LLM)是否真正理解物理世界的重要指标。现有用于评估ETR能力的问答数据集缺乏系统化分类体系,且对复合问题的关注有限。本文提出统一的事件时间问题分类体系,并据此构建综合性评测基准ETRQA。该基准不仅继承并拓展了现有数据集的评估内容,还包含多类复合问题。本文在不同设置下对Llama和Qwen两大主流LLM系列进行评测,实验结果表明:大尺度LLM已具备一定ETR能力,但在时间跨度推理、复合问题推理、细粒度时间推理等特定任务类型上仍存在不足。本文期待ETRQA能为时间推理研究社区的后续工作提供助力。

10.论文题目:Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

作者列表:罗应峰,郑童,穆永誉,李北,张庆宏,高永祺,许子强,冯佩楠,刘晓倩,肖桐,朱靖波

简介:神经机器翻译(NMT)与大语言模型(LLM)两种主流翻译范式之间存在着性能与效率的权衡:NMT训练简单,推理高效,但在泛化方面存在不足;LLM具备强大的语言理解和任务泛化能力,却面临推理成本高昂的问题。为兼顾两者优势,本文提出了LaMaTE(Large Language Models as Machine Translation Encoders)——将LLM作为编码器、结合轻量级NMT解码器的混合架构。该方法利用LLM的表征能力实现高质量源语语义建模,同时通过高效紧凑的解码器来降低推理负担。为更全面评估方法性能,本文构建了一个综合性的、覆盖任务更广的多任务机器翻译数据基准——ComMT。实验结果表明,LaMaTE在保持接近LLM翻译性能的同时,实现了2.4~6.5倍的推理加速,并将KV缓存内存占用减少了约75%,同时模型仍保持了良好的泛化能力。代码、模型及数据集见https://github.com/NiuTrans/LaMaTE

11.论文题目:Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering

作者列表:姬彬荃,罗海波,卢逸飞,黑磊,王嘉岐,廖婷婧、王凌宇,王世超,任飞亮

简介:论文工作面向RAG研究中,针对知识密集型多跳问答任务中轻量级语言模型易产生幻觉和语义漂移的问题,提出动态增强链(DEC)框架。该框架采用三阶段解决方案:首先将复杂问题分解为无幻觉的逻辑子问题链,继而通过上下文感知的子问题重写优化查询策略,最后设计轻量级关键词提取模块实现精准文档召回。实验表明,DEC在保持或超越现有最优方法性能的同时,显著降低计算资源消耗。特别在8B参数模型上取得当前最优结果,验证了其在资源受限场景下的应用优势,为多跳问答任务提供了兼顾效率与准确性的新方法。

上述研究成果的取得标志着必赢线路检测3003在自然语言处理和人工智能领域取得了重要进展,有效提升了学院在相关领域的学术影响力和贡献度。

  

撰稿人:杨晓翠

  

  

  

  

  


Baidu
sogou