计算所主站中国科学院
  • 首 页
  • 实验室概况
    • 实验室简介
    • 实验室定位
    • 研究布局
    • 实验室领导
    • 学术委员会
    • 研究团队
  • 通知公告
    • 项目征集
    • 人员招聘
  • 新闻动态
    • 科研动态
    • 学术活动
    • 实验室新闻
  • 科学研究
    • 研究进展
  • 研究队伍
    • 院士专家
    • 研究员/正高级工程师
    • 副研究员/副高级工程师
  • 论文发表
    • 2025
    • 2024
    • 2023
    • 2022
    • 2021
  • 研究生培养
    • 招生信息
    • 导师
    • 荣誉及奖励
  • 首 页
  • 实验室概况
    • 实验室简介
    • 实验室定位
    • 研究布局
    • 实验室领导
    • 学术委员会
    • 研究团队
  • 新闻动态
    • 科研动态
    • 学术活动
    • 实验室新闻
  • 科学研究
    • 研究进展
  • 研究队伍
    • 院士专家
    • 研究员/正高级工程师
    • 副研究员/副高级工程师
  • 论文发表
    • 2025
    • 2024
    • 2023
    • 2022
    • 2021
  • 研究生培养
    • 招生信息
    • 导师
      • 博导
      • 硕导
    • 荣誉及奖励
  • 研究成果专题
  • 快速链接
  • 所主站中国科学院English
  • 当前位置:首页研究成果专题
  • 研究成果专题

    实验室18篇论文获ACL 2024录用

    发布时间:2024-06-19【字体: 大  中  小 】


    国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。第62届ACL 2024会议计划于8月11日至8月16日在泰国曼谷召开。近日,智能算法安全重点实验室(中国科学院)18篇长文论文获ACL 2024录用。其中,9篇论文被ACL主会录用,9篇被Findings of ACL录用,主题包括大模型认知、动态检索增强、多模态检索增强。



    主  会


    1.  A Non-autoregressive Generation Framework for Simultaneous Speech-to-x Translation

    作者:马铮睿,房庆凯,张绍磊,郭守涛,冯洋,张民

    内容简介:同声传译模型在促进语音交流中发挥着至关重要的作用。然而,现有研究主要集中在文本到文本或语音到文本模型上,需要额外的级联组件来实现语音到语音的同声传译。这些流水线方法容易出现错误传播,并且在每个级联组件中积累延迟,导致演讲者和听众之间的同步性降低。为了克服这些挑战,我们提出了一种用于语音同声传译的非自回归生成框架(NAST-S2x),将语音到文本和语音到语音任务集成到统一的端到端框架中。受到片段到片段生成概念的启发,我们开发了一个非自回归解码器,能够在接收到每个语音片段后同时生成多个文本或声学单元标记。该解码器可以生成空白或重复的标记,并采用CTC解码来动态调整其延迟。实验结果表明,NAST-S2x在语音到文本和语音到语音同声传译任务的基准测试上达到了最先进的性能。




    2. Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA?

    作者:谭鹤翔,孙飞,杨万里,王元卓,曹婍,程学旗

    论文链接:https://arxiv.org/pdf/2401.11911

    代码链接:https://github.com/Tan-Hexiang/RetrieveOrGenerated

    内容简介:在上下文中提供辅助信息已经成为增强大型语言模型(LLMs)的重要手段。但是LLMs如何融合多种来源的上下文,特别是由LLMs生成的上下文和从外部来源检索的上下文,仍有待探索。为了研究这个问题,我们设计了一个系统框架,以识别LLMs的回答来源于检索/生成的上下文。为了便于追踪回答的来源,我们构建了包含冲突上下文的数据集,即每个问题都对应一个生成和一个检索的上下文,但只有其中一个包含正确答案。我们的实验揭示了当前LLMs(GPT-4/3.5和Llama2)在融合知识时明显偏向生成的上下文,即使其提供了错误信息。进一步的分析探究了导致这一偏向的两个关键因素:(i) LLMs生成的上下文通常与问题具有更大的相似性,从而增加了它们被相信的可能性;(ii) 当前检索系统在切分文章时破坏了其语义完整性,从而阻碍了它们在LLMs中的利用。我们的分析揭露了LLMs融合多种来源上下文时的偏见,为改进当前LLMs增强方法提供了宝贵的见解。







    3. Can We Achieve High-quality Direct Speech-to-Speech Translation Without Parallel Speech Data?

    作者:房庆凯,张绍磊,马铮睿,张民,冯洋

    内容简介:语音到语音翻译(Speech-to-Speech Translation,S2ST)是指将源语言的语音翻译到目标语言的语音,是一项极具挑战性的任务。最近提出的Two-pass S2ST模型(如UnitY、Translatotron 2、DASpeech等)在端到端框架内将S2ST任务分解为语音到文本翻译(S2TT)和文本到语音(TTS),其效果能够超越传统的级联模型。然而,模型训练仍然依赖于平行语音数据,这种数据非常难以收集。同时,由于S2TT和TTS模型的词表粒度通常不一致,模型未能充分利用现有的数据和预训练模型。为了解决这些挑战,本文首先提出了一种组合式S2ST模型ComSpeech,该模型可以通过基于CTC的词表适配器,无缝集成任何S2TT和TTS模型到一个S2ST模型中。此外,本文提出了一种仅使用S2TT和TTS数据的训练方法,通过在表示空间中利用对比学习进行表示对齐,实现零样本端到端S2ST,从而消除了对平行语音数据的需求。实验结果表明,在CVSS数据集上,当使用平行语音数据训练时,ComSpeech在翻译质量和解码速度上均优于之前的Two-pass模型。当没有平行语音数据时,基于零样本学习的ComSpeech-ZS仅比ComSpeech低0.7 ASR-BLEU,并且优于级联模型。 

     




    4.  Decoder-only Streaming Transformer for Simultaneous Translation

    作者:郭守涛,张绍磊,冯洋

    内容简介:同声传译在读取源端句子的同时生成译文,其根据源端前缀生成目标端前缀。它利用源端前缀和目标前缀之间的关系,制定读取或生成单词的策略。现有同传方法主要采用Encoder-Decoder架构,我们则探索了Decoder-Only架构在同传中的潜力,因为Decoder-Only架构在其他任务中表现优异,并且与同传有内在的兼容性。然而,直接将Decoder-Only架构应用于同传在训练和推理方面均存在挑战。为此,我们提出了首个Decoder-Only同传模型,名为Decoder-only Streaming Transformer(DST)。具体地,DST分别编码源语言和目标语言前缀的位置信息,确保目标语言前缀的位置不受源语言前缀扩展的影响。此外,我们提出了一种针对Decoder-Only架构的流式自注意力机制(Streaming Self-Attention,SSA)。它能够通过评估输入的源端信息的充分性来获取翻译策略,并结合软注意力机制生成翻译。实验表明,我们的方法在三项翻译任务中达到了最新的性能水平。






    5. EFSA: Towards Event-Level Financial Sentiment Analysis

    作者:陈天宇、张一鸣、于国欣、张大鹏、曾理、敖翔

    内容简介:金融情感分析(FSA)任务由于事件的冗长性、不连续性和情感的隐含性而面临着独特的挑战。本文旨在将FSA扩展到事件级别,因为事件往往是是影响金融标的价格波动的核心内容。为此,本文将事件提取重新构想为一个分类任务,并设计了包括粗粒度和细粒度事件类别的分类方法。在这一框架下,本文建立了事件级金融情感分析(EFSA)任务,通过定义(公司实体,行业,一级事件,二级事件,情感)的五元组来表征新闻中提及企业发生事件的类别以及事件的情感倾向。为了支持此任务,本文发布了一个大规模数据集,包含12160篇新闻,13725个五元组,涵盖了7类一级事件、43类二级事件,并实现了对32个申万行业分类的全覆盖。该数据集是目前现有的最大规模的中文细粒度金融情感分析数据集。基于该任务,本文对GPT-4、LLaMa等最先进的大模型,以及chatglm、通义千问等强中文能力大模型以及DISC等金融垂直领域大模型进行了广泛评估。同时,本文提出了一种多跳思维链框架,在实验中取得了SOTA结果。





    6. KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction

    作者:李紫宣,曾宇涛,左宇新,任韦澄,刘文轩,苏淼,郭宇璨,刘衍涛,李想,胡志磊,白龙,李伟,刘议丹,杨攀,靳小龙,郭嘉丰,程学旗

    文章链接:https://arxiv.org/pdf/2403.07969.pdf

    内容简介:我们提出了知码大模型(KnowCoder)。该模型利用形式化编程语言统一表示结构化知识,实现了符号化知识图谱与神经网络大模型的完美结合,从而在统一知识抽取方面取得了突破,大大提升了知识抽取的精确度与泛化性。知码大模型包括知码本体、知码训练数据以及“本体理解-本体遵循-模型精调”三阶段的知码训练框架:1)知码本体:采用代码风格的形式化方法定义各种概念知识。具体地,知码本体包括三个基础类型,即“实体”、“关系”和“事件”。在这三个基类基础之上,通过相应子类来表示更多的本体概念,最终形成了包含超过30000多种实体、关系与事件类型的大规模知码本体;2)知码训练数据:我们基于知码本体构建了包括200多万个实体、100多万条关系以及30多万个事件在内的大规模训练数据;基于ChatGPT、远程监督等算法,自动构建了总计包含100万实体、关系与事件的高质量且类型丰富的指令微调数据;收集了包括23个实体抽取数据集、8个关系抽取数据集以及2个事件抽取数据集在内的人工标注数据,最终形成面向模型精调的大规模高质量训练集。3)知码训练框架:本体理解阶段,模型在概念定义代码与概念-实例代码上进行代码预训练,向大模型中注入本体知识与实例知识;本体遵循阶段,通过在大规模自动生成的指令微调数据上进行指令微调,增强模型遵循给定本体抽取相应知识的能力。经过本体理解-本体遵循两阶段训练之后,得到KnowCoder-Base模型。最后,KnowCoder还可以在高质量人工标注的精调数据上进行进一步训练,得到面向下游抽取任务的KnowCoder-UIE模型。

     





    7.  StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning?

    作者:张绍磊,房庆凯,郭守涛,马铮睿,张民,冯洋

    内容简介:实时语音到语音翻译 (Simul-S2ST) 在接收流式语音输入的同时输出目标语音,这对于实时交流至关重要。除了完成语音之间的翻译之外,实时语音到语音翻译还需要一个策略来控制模型在语音输入中适时生成相应的目标语音,从而提出了翻译和策略的双重挑战。在本文中,我们提出了 StreamSpeech,一种端到端 Simul-S2ST 模型,其可以在多任务学习的统一框架中联合学习翻译和实时策略。借助语音识别、语音到文本翻译和语音合成的多任务学习,StreamSpeech 能识别开始翻译的合适时机,并随后生成相对应的目标语言语音。实验结果表明 StreamSpeech 在离线S2ST和 Simul-S2ST 任务中均实现了最先进的性能。由于多任务学习,StreamSpeech 能够在实时翻译过程中呈现中间结果(例如 ASR 和翻译文本),从而提供更全面的翻译体验。







    8. TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space

    作者:张绍磊,雨田,冯洋

    文章链接:https://arxiv.org/abs/2402.17811

    内容简介:大语言模型 (LLM) 在各种任务中表现出了卓越的能力。然而,LLMs有时会产生幻觉(hallucinations),特别是在尽管拥有正确的知识的情况下仍可能产生不真实的回复。在本文中,我们提出了TruthX,一种推理时间方法,其通过在真实性空间中编辑LLM的内部表示来激活LLMs的真实性。TruthX采用自编码器将LLM的内部表示分别映射到语义(semantic)和真实性(truthful)的潜在空间,并应用对比学习来识别真实性空间内的真实性编辑向量。在推理中,通过在真实性空间编辑LLM的内部表示,TruthX有效地增强了LLM的真实性。实验表明,TruthX在TruthfulQA基准测试中将13个先进LLM的真实性/事实性平均提高了20%。进一步的分析表明,TruthX所捕获的真实空间在控制LLM生成真实或幻觉响应方面起到了关键作用。TruthX可以通过仅编辑真实空间中的一个向量来控制LLM生成真实或幻觉的响应,其中正向编辑可以激发LLM产生真实回复;而负向编辑完全破坏LLM真实性,生成充满幻觉的回复。





    9. Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation

    作者:徐士成,庞亮,于墨,孟凡东,沈华伟,周杰,程学旗

    论文链接:https://arxiv.org/abs/2402.18150v1

    代码链接:https://github.com/xsc1234/INFO-RAG/

    内容简介:检索增强生成(RAG)通过引入额外的检索信息来增强大型语言模型(LLM)。然而,研究显示,LLM在有效利用检索到的信息方面仍面临挑战,甚至忽视或被其误导。关键原因在于,LLM的训练并没有明确地让LLM学习如何利用质量各异的输入检索文本。在本文中,我们提出了一个新的观点,将RAG中LLM的角色视为“信息精炼器”,这意味着,无论检索到的文本的正确性、完整性或有用性如何,LLM都能始终整合检索到的文本中的知识和模型参数,生成比检索到的文本更简洁、准确、完整的文本。为此,我们提出了一种名为InFO-RAG的信息精炼训练方法,该方法以无监督的方式优化RAG的LLM。InFO-RAG成本低,适用于各种任务。在包括问答、槽填充、语言建模、对话和代码生成在内的多种任务的11个数据集的零样本预测的广泛实验中,InFO-RAG将LLaMA2的性能提高了平均9.39%的相对点数。InFO-RAG还显示出在上下文学习和RAG的稳健性方面的优势。





    Findings of ACL



    1. Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative  Retrieval

    作者:唐钰葆,张儒清,郭嘉丰,Maarten de Rijke, 范意兴,程学旗

    内容简介:生成式检索利用可微分的搜索索引来直接生成与查询相关的文档标识符。最近的研究突显了一个强大的生成式检索模型的潜力,该模型通过精心设计的预训练任务进行训练,然后通过微调来增强下游检索任务。然而,由于依赖于预定义的静态文档标识符,这些标识符可能与不断变化的模型参数不一致,生成式检索的预训练潜力尚未得到充分利用。在这项工作中,我们引入了BootRet,这是一种生成式检索的自举预训练方法,它在预训练过程中动态调整文档标识符,以适应对语料库的持续记忆。BootRet涉及三个关键训练阶段:(i)初始标识符生成,(ii)通过语料库索引和相关性预测任务进行预训练,以及(iii)用于标识符更新的自举。为了促进预训练阶段,我们进一步引入了由大型语言模型生成的噪声文档和伪查询,以在索引和检索任务中模拟语义连接。实验结果表明,BootRet显著优于现有的预训练生成式检索基线,即使在零样本设置中也表现良好。







    2.  CTC-based Non-autoregressive Textless Speech-to-Speech Translation

    作者:房庆凯,马铮睿,周龑,张民,冯洋

    内容简介:直接语音到语音翻译(Direct Speech-to-Speech Translation)在翻译质量方面取得了显著成效,但由于语音序列长度较长,常面临解码速度缓慢的挑战。最近,一些研究转向非自回归(NAR)模型以加快解码速度,但其翻译质量通常明显落后于自回归(AR)模型。本文研究了基于连接时序分类(CTC)的NAR模型在语音到语音翻译任务中的表现。实验结果表明,通过结合预训练、知识蒸馏和先进的NAR训练技术(如Glancing训练和非单调对齐),基于CTC的NAR模型在翻译质量上可与AR模型相媲美,同时实现了高达26.81倍的解码速度提升。






    3. Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features

    作者:卜梦煜,谷舒豪,冯洋

    内容简介:多语言神经机器翻译可以看作是将源句的语义特征与目标句的语言特征相结合的过程。基于此,我们提出利用多语言的语义和语言特征来增强多语言翻译模型的零射翻译能力。在编码器端,我们引入了一种解耦学习任务,该任务通过解耦语义和语言特征来对齐编码器表示,从而实现无损的知识迁移。在解码器端,我们利用语言编码器来集成低层语言特征,以辅助生成目标语言。实验结果表明,与基线系统相比,我们的方法能够显著提升零射翻译,同时保持有监督翻译的性能。





    4. Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation

    作者:黄浪林,冯洋

    内容简介:基于字节编码的机器翻译模型缓解了多语言翻译模型词表稀疏和词频不平衡的问题,但是存在着字节序列信息密度低的弊端。有效的解决方法是采用局部语境化(local contextualization),但现有的工作无法根据输入选择合适的局部作用范围。本文提出了一种多粒度注意力(Multi-Scale Attention)方法,对不同的隐状态维度施加不同作用范围的局部语境化,再通过注意力机制动态融合多粒度的语义信息,实现了对多粒度信息的动态整合。实验证明我们的方法在多语言场景下超过现有工作,在低资源场景下远超基于subword的翻译模型。





    5. MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

    作者:崔莞清,毕可平,郭嘉丰,程学旗

    文章链接:https://arxiv.org/abs/2402.13625

    内容简介:常识信息由于报告偏差的问题,导致基于文本生成预训练的语言模型在学习常识知识方面存在困难,即生成的句子并不总是符合常识,图像在捕捉常识信息方面具有天然优势,却很少被有效利用。本文提出了一种新颖的多模态检索(MORE)增强框架,结合从网络上检索的文本和图像来提升语言模型的常识能力。具体而言,我们使用多模态编码器(如BLIP2的Qformer)来初步编码检索到的图像和文本表征,然后使用一个可插拔的整合器来根据查询输入权衡每个检索信息结果,提取有用信息,并充当桥梁,将检索结果的编码语义空间转换为目标语言模型使用的表示空间。此外,为了保证目标语言模型不会忽视检索结果或盲目信任它们,MORE引入了一种查询dropout的训练机制,在一定比例上屏蔽查询输入,迫使模型利用检索结果进行生成。同时,通过随机替换检索结果并引导模型在这种情况下输出空值,以提升模型在面对检索中的噪声时的鲁棒性。在生成常识推理任务CommonGen上的实验结果表明,MORE通过结合多模态检索结果,显著提升了基于单模态和多模态预训练语言模型的性能。此外,相比于代表性的检索增强基线模型和LLMs(如GPT-3.5和GPT-4),MORE也表现出显著的优势。





    6. Truth-Aware Context Selection: Mitigating the Hallucinations of Large Language Models Being Misled by Untruthful Contexts

    作者:雨田,张绍磊,冯洋

    文章链接:https://arxiv.org/abs/2403.07556 

    内容简介:尽管大语言模型(LLM)已经展示了令人赞叹的文本生成能力,但它们很容易被用户或知识增强工具提供的不真实上下文误导,从而产生幻觉。为了避免LLM被不真实的信息误导,同时利用知识增强的优势,我们提出了一种轻量级的方法——真实感知上下文选择(TACS),来对输入中不真实的上下文进行遮蔽。TACS首先利用LLM中的参数化知识对输入上下文进行真实性检测。随后,TACS基于每个位置的真实性构建相应的注意力掩码,保留真实的上下文并丢弃不真实的上下文。此外,我们引入了一种新的评估指标——干扰适应率,以进一步研究LLM接受真实信息和抵抗不真实信息的能力。实验结果表明,当提供误导性的信息时,TACS可以有效地对下文中的信息进行过滤,并显著提高LLM回复的整体质量。





    7. Uncovering Limitations of Large Language Models in Information Seeking from Tables

    作者:庞朝旭,曹逸轩,杨春昊,罗平

    内容简介:表格因其高信息密度和广泛使用而被认可,成为重要的信息来源。从表格中获取信息(TIS)是大型语言模型(LLM)的关键能力,构成了基于知识的问答系统的基础。然而,该领域目前缺乏全面和可靠的评估。本文引入了一个更可靠的表格信息获取(TabIS)基准。为了避免由文本相似性度量引起的不可靠评估,TabIS采用单选题格式(每题两个选项)而不是文本生成格式。我们建立了一个有效的选项生成流程,确保其难度和质量。对12个LLM进行的实验表明,虽然GPT-4 turbo的性能略为令人满意,但其他专有和开源模型的表现均不理想。进一步的分析表明,LLM对表格结构的理解较差,难以在TIS性能和对伪相关表格(在检索增强系统中常见)的鲁棒性之间取得平衡。这些发现揭示了LLM在从表格中获取信息时的局限性和潜在挑战。





    8. When Do LLMs Need Retrieval Augmentation? Mitigating LLMs’Overconfidence Helps Retrieval Augmentation

    作者:倪诗宇,毕可平,郭嘉丰,程学旗

    文章链接:https://arxiv.org/pdf/2402.11457

    中文介绍:https://mp.weixin.qq.com/s/yhkGXXjYdoM-KIhHGgdjdA

    内容简介:大语言模型(LLMs)被发现难以意识到自己没有掌握特定知识,并且在这种情况下往往会产生幻觉,编造错误的答案。为缓解LLMs的幻觉现象,检索增强(RA)已被广泛研究。然而,由于额外的开销和检索质量的不确定性,总是进行RA可能并不是最佳选择。一种直接的思路是仅在LLMs不确定能够答对问题时进行检索 (Adaptive RA)。这促使我们增强LLMs感知其知识边界的能力以准确判断RA的时机。在本文中,我们首先定量测量了LLMs的自我认知水平并发现LLMs往往过度自信。然后,我们研究了LLMs对生成答案的不确定性与其对外部检索信息依赖性之间的关系,并发现LLMs在对答案表示出不确定性时,更容易依赖外部文档进行回答。我们提出了几种方法来增强LLMs对知识边界的感知,并证明这些方法在减少过度自信方面是有效的。此外,采用这些方法的LLMs能够在大大减少检索调用次数的情况下,实现与全量RA相当甚至更好的性能。





    9.  When to Trust LLMs: Aligning Confidence with Response Quality

    作者:陶舒畅,姚柳佚,丁汉星,谢悦湘,曹婍,孙飞,高金杨,沈华伟,丁博麟

    论文链接:https://arxiv.org/abs/2404.17287

    内容简介:大语言模型(Large language models,LLMs)在理解和生成自然语言方面取得了成功,但研究表明LLMs会生成错误或无意义文本,尤其是应用在安全关键领域时会产生巨大风险。现有方法尝试通过引导模型输出置信度等方式提升模型可信度,然而,模型输出的置信度往往与模型的回复质量不一致。本文提出CONQORD利用强化学习,结合了精心设计的回复质量奖励函数和基于序保持的对齐奖励函数,激励模型对高质量回复输出更高置信度,对齐置信度和回复质量的序关系。实验表明,CONQORD显著提高了置信度与回复质量之间的一致性,且没有使模型变得过于谨慎。此外,CONQORD得到的对齐后的置信度可作为何时信任LLMs的依据,并可以作为启动外部知识检索(Retrieval augmented generation)的决策因素。本文将语言模型输出的置信度与回复质量对齐,使其生成更透明可靠的回复,提升了模型的可信度。


    写留言
    留言

      暂无留言



      附件下载:

      上一篇:实验室5篇论文获SIGIR 2024录用
      下一篇:实验室5篇论文获SIGIR 2024录用
      版权所有 © 中国科学院计算技术研究所京ICP备05002829号-1京公网安备1101080060号
      地址: 北京市海淀区中关村科学院南路6号
      电话:86-10-62601166邮箱:ictoffice@ict.ac.cn