姑苏实验室1篇大语言模型研究论文被机器学习与数据挖掘重要会议ECML-PKDD 2024录用

发布时间:2024-09-02

日,姑苏实验室一篇大语言模型研究论文——Thinking like an author: A zero-shot learning approach to keyphrase generation with large language model 被欧洲机器学习与数据挖掘会议(ECML-PKDD 2024)录用。姑苏实验室软件算法工程化平台王思宇博士为本论文第一作者,戴圣然为共同一作。

ECML-PKDD,即欧洲机器学习和数据挖掘会议,是机器学习和知识挖掘领域顶级国际学术会议之一,是 CCF-B推荐国际会议,每年在欧洲举行。今年的ECML-PKDD 2024将于99日至13立陶宛的维尔纽斯举行。本次会议共收到826篇投稿,其中202篇被录用,录用率为24%




图片

图片


论文题目:Thinking like an author: A zero-shot learning approach to keyphrase generation with large language model

关键词:关键词生成、大语言模型、零样本学习

作者:王思宇、戴圣然、蒋建慧


论文简介
图片
论文研究了如何利用大语言模型 (LLM) 进行更全面、更准确的关键词生成。关键词生成的目标是从给定文档中自动提取一组关键词。本文提出了一种利用大语言模型的零样本学习方法来生成关键词,包括四个部分:提取器、扩展器和检索器负责召回候选关键词,排序器负责对这些关键词进行排序。实验结果显示,该方法在多种数据集上具备良好的性能。


方法创新点
图片
(1)零样本学习框架:该方法采用零样本学习,不需要任何带标签的数据集,依赖于LLM的强大自然语言处理能力来生成和扩展关键词。这一创新点使得该方法避免了大量标注数据的依赖,降低了数据获取成本。
(2)四步流程的模拟:提出的方法基于模仿人类选择关键词的四个步骤(提取、扩展、检索、排序),并通过分解和细化这些步骤来更全面地生成关键词(包括显式关键词和隐式关键词)。这个四步流程的设计使得生成的关键词更具多样性和覆盖性。
(3)多轮选择的排序机制:在排序阶段,论文提出了一种基于多轮选择(multiple-turns)的排序方法,让LLM从中正反两个方面选择最相关和最不相关的关键词。这种方法提高了关键词排序的精度,有效提升了关键词生成的质量。
(4)综合利用多种信息源:该方法不仅使用文档自身的信息(提取和扩展),还结合了来自相似文档的信息(检索),从多个角度确保关键词的全面性和准确性。

模型架构图

效果评估

图片

本论文选择了三种主要类型的关键词生成方法作为基线进行效果对比,包括无监督方法(unsupervised method)、有监督方法(supervised method)和基于大语言模型的零样本学习方法(zero-shot-learning method)。总体而言,我们的方法超过了所有的无监督方法和部分有监督方法,且在大多数数据集上优于其他基于大语言模型的零样本学习方法。与生成显式关键词相比,生成隐式关键语更具挑战性。尽管在这方面未能超过有监督方法,但与其他基于大语言模型的零样本学习方法相比,我们的方法取得了更好的效果。



论文地址
https://link.springer.com/chapter/10.1007/978-3-031-70352-2_20
代码地址
https://github.com/sygogo/Zero-Shot-Learning-KeyphraseGenerator

姑苏实验室软件算法工程化平台致力于自然语言处理、大语言模型以及强化学习等AI细分领域的研发和创新应用,我们紧跟技术发展前沿趋势,并追求和行业需求深度结合,欢迎各界沟通交流
图片