EMNLP'24 最佳论文解读 | 大语言模子的预训练数据检测：基于散度的校准方法 ...

圆咕噜咕噜 · 2024-12-29 18:21:35

点击蓝字

  关注我们
  AI TIME欢迎每一位AI爱好者的参加！

  点击 阅读原文 观看作者讲解回放！
  作者简介
  张伟超，中国科学院计算所网络数据科学与技能重点实验室三年级直博生

  内容简介
  比年来，大语言模子（LLMs）的训练数据规模在不断扩大，而模子开发者却越来越不愿意公开训练数据的利用信息，这种环境使得审查大模子的数据利用过程是否符合法律法规面临困难。近期，在大模子上进行预训练数据检测的任务开始受到关注，即给定一段文本和一个预训练数据未知的大模子，仅依赖黑盒访问条件来推断该文本被用于大模子的预训练过程。Min-K% Prob方法在一些基准数据集上取得了最好的结果，该方法假设非训练文本往往包含一些具有低词元概率的异常词。然而，该方法容易将包含较多频繁词的非训练文本误分类为训练文本。受信息检索领域的divergence-from-randomness理论启发，他们提出了一种新的预训练数据检测方法DC-PDD来解决这个标题。DC-PDD通过计算词元概率分布与词元频率分布之间的交叉熵（即divergence）作为检测信号。别的，他们提出了一个中文基准数据集PatentMIA，用于评估中文数据检测方法的性能。在现有的基准数据集和PatentMIA上的实验结果表明，DC-PDD明显优于现有方法。

论文地点：

https://arxiv.org/pdf/2409.14781

代码链接：

https://github.com/ zhang-wei-chao/DC-PDD

  Motivation
  众所周知，自从在大模子上验证 scaling law 的有效性之后，模子的训练数据规模就开始急剧增加但是模子开发商却越来越不愿意公开有关训练数据的利用信息，这种数据不透明的环境，就使得我们难以审查模子的数据利用过程是否合乎道德，甚至法规。
  比如，近期就有不少报道称，在未经授权的环境下，大模子开发商擅自利用了具有敏感信息或者受到版权保护的数据进行训练，侵占了数据所有者的权益，受到相关的告状。
  别的，有些模子的训练数据中，大概有意或者偶然的包含了用于评估模子性能的基准数据集，造成模子性能虚高的假象，这种刷榜现象也对大模子的发展带来了倒霉影响。

鉴于这些现象，大模子的预训练数据检测任务开始受到关注。该任务是指，给定一段文本和一个大语言模子，要求检测出该段文本是否为这个大语言模子的训练数据。然而，需要注意的是，检测过程是不可获知大模子的训练数据信息的。

  这里，先简单介绍一下词元概率的概念。即给定一个大模子和一段文本序列，模子对文本中每个词元的概率可计算为，在给定的全部前文信息时，模子猜测下一个词元为的概率，也就是这张动态图所示的过程。
  现有方法通常认为，模子对一段文本的词元概率分布，可以作为信号，用于检测该段文本是否为模子的训练数据。
  例如，一篇发表于ICLR 2024的文章提出一种检测方法认为，模子对一段非训练文本的词元概率分布，与一段训练文本的相比，通常会有更多的词元，被计算得到更低的概率，也可以理解为具有高猜测概率的文本更大概是训练文本。

  然而，有研究表明，基于交叉熵丧失函数训练得到的语言模子，在进行下一词元猜测时，通常会偏好高频词元。这就使得，大语言模子在进行下一词元猜测时，倾向于给高频词元赋予更高的猜测概率，进而就使得现有基于词元概率的检测方法，容易将包含较多高频词的非训练文本误检为训练文本。
  右图展示了一个概念性的例子来阐述这个标题。图中，是一段非训练文本，而是一段训练文本，通过词元概率计算后，整体上，的词元概率高于。因此，现有方法就认为相比于更大概是训练文本，而这与真真相况却是恰恰相反的。以是，本文提出一种新的检测方法来解决这个标题。

  别的，当前的研究重要关注英文文本的预训练数据检测，对非英文文本的研究较少。而实际上，不同语言之间存在着较大的语法差别。以中文为例，它跟英文相比，就没有首字母大写，以及基于空格分隔单词的特点。
  因此，这也让研究者好奇，这些特性是否会影响现有方法的检测性能，换句话说，现有方法在非英文文本的检测上是否也能奏效。

  A New Benchmark and a Novel Method
  因此，为了补充上述的研究空白，本篇工作重要做了两点：一是构造了一个非英文的基准数据集，详细来说是中文，用于评估现有方法在非英文文本上的检测结果；二是提出了一种新的检测方法，并证实该方法的有效性。
  A Non-English Benchmark
  该基准数据集的数据来源是 Google patent 的网页数据。该网页的数据作为公开数据集 Common Crawl 的数据来源之一，常被用于大模子的预训练过程。因此，可以通过待检测大模子的训练数据截止时间，将发布于此时间节点之前的 Google patent 数据，作为待检测大模子的训练数据，而将发布于此时间节点之后的 Google patent 数据，作为待检测大模子的非训练数据，进而构造得到基准数据集。
  详细来说，作者分别爬取了 5000 页发布于 2023 年 1 月 1 日之前和 2024 年 3 月 1 号之后的专利文本作为训练数据和非训练数据。然后对这些文本的预处理方式，跟随一些大型的中文公开语料库的处理方式，使预处理后的文本格式，尽大概接近大模子的预训练数据格式。最后从每页专利文本中抽取一个 512 个词汇长度的片段，得到一个规模为 10000，训练数据与非训练数据等量的基准数据集。

表中展示了作者构造的数据集，与现有数据集的统计数据。需要注意的是，本文构造的基准数据集仅适用于，训练数据截止日期在 2023 年 1 月 1 号至 2024 年 3 月 1 号之间，且支持中文推理的大模子。

  A Novel Method
  本文方法受信息检索领域中 Divergence from randomness 理论的启发，该理论是指，如果一个词汇在当前文档内的频率，与该词汇在多个文档中的频率的差别越大，那么该词汇对当前文档而言，就具有越大的信息量。
  此处以一个概念性的例子来帮助各人理解这个理论。单词‘the’ 在当前文档中出现的频率较高，同时在大多数其他文档中出现的频率也比力高，因此，‘the’ 对当前文档来说，就不是一个具有大信息量的词汇；反之，单词‘LLM’ 在当前文档中出现的频率较高，但在大多数其他文档中出现的频率却比力低，因此，‘LLM’ 对当前文档来说，就是一个信息量比力大的词汇。
  也就是说，一个词汇对当前文档的信息量应该通过该词汇的文档内频率与跨文档频率二者的差别来度量，也就是局部与全局的差别，而不是仅仅看该词汇在当前文档中出现的频率。

那么在本文的场景中，DFR 理论下的文档内词频分布，就可以理解为模子对一段文本的词元概率分布，记为 token probability distribution。而 DFR 理论下的跨文档词频分布，就可以理解为模子的训练语料库的词频分布，代表全局的分布环境，记为 token frequency distribution。

因此，本文方法就是利用模子对待检测文本的词元概率，与待检测文本中词元在训练语料库中频率之间的差别来进行检测，只有这种差别大时，才表明当前文本更有大概是训练数据。而不是像现有方法那样仅依赖词元概率进行检测。

第一步，先获取模子对待检测文本的词元概率分布，这可以通过将文本输入目标大模子后获取得到，详细的计算过程如动态图所示，每个词元概率都是大模子基于该词元的全部前文信息计算得到的。

第二步，需要获取大模子预训练语料的词元频率分布，但是由于大模子的训练语料没有公开，以是作者采取了一个公开的大型语料库作为参考语料，来近似计算这个分布。对于计算过程中大概碰到的零概率标题，也就是大模子词表中的某些词元大概在参考语料库中一次也不会出现，文中采取拉普拉斯平滑来解决这个标题。

  第三步，通过对比前面得到的两个分布的差别，为待检测文本计算一个用于终极检测的分数。详细来说，首先依据 DFR 理论计算两个分布的散度，就是将模子对每个词元的概率，与相应词元在语料库中出现的频率的对数相乘后取反，进而为文本中的每个词元得到一个新的值然后，由于个别词元的频率较低，当取对数后值会变得非常大，因此，为了防止终极的分数被个别词元的值所主导，本文设置了一个超参数 a 来控制上限。
  最后，由于模子通常会给那些在文本此前出现过的词，赋予较高的猜测概率，以是文中仅选取在文本中第一次出现的词对应的值来计算最后的分数。以一个详细示例说明，假设待检测文本为 a cat chased another cat，由于 cat 在第二个位置出现过，那么在模子猜测第五个词时，cat 的猜测概率会受到第二个位置出现过的影响而自然地被赋予更高的猜测概率，因此我们在终极计算时，cat 只是用第二个位置对应的值，也就是第一次出现的时候，而摒弃之后出现的重复词对应的值。

第四步，将计算得到的检测分数，与一个提前设定好的阈值进行对比，来给出终极的检测结果。当分数小于阈值时，认为待检测文本不是训练数据；反之，认为待检测文本是训练数据。本文实验中的评估指标跟随大多数现有工作，重要接纳 AUC 分数进行评估，因此未涉及详细的阈值设定。

  Experiments
  Models And Benchmarks
  本实验包含了三组设置，第一组实验的几个目标模子的训练数据停止日期都是在 2017 至 2022 年期间，相应地，现有基准数据集 WikiMIA 的构造也是围绕这个时间节点进行的，它将发布于 Wikipedia 上 2017 年之前的消息事件的报道文章作为目标模子的训练数据，2022年之后的作为非训练数据。其他两组实验设置也与之类似。
  特别要提的是，对于本文构造的 PatentMIA 基准数据集，作者选取了两类发布于2023年期间，且支持中文推理的 Qwen1.5 和 Baichuan 系列大模子。

  Baselines And Metrics
  本文方法与 6 种代表性的极限方法进行了对比。其中 Min-k% prob 是在本工作之前在现有数据集上取得最佳结果的方法，而 Min-k%++ prob 是同期工作，是在 Min-k% prob 方法上的改进，也是对词元概率进行了校准再利用其进行检测，只不过是从其他的角度进行校准，而不是从词元频率的角度。
  其他几种方法是一些基于参考的检测方法，其目标是为了降低文本自身复杂度对检测的影响，尽管这些方法的性能体现也不错，但由于检测过程需要借助额外的参考物，使得他们在实际应用场景中存在更大的局限性。
  在实验的评估指标上，本文与大多数现有工作类似，重要采取了两个评估指标，一个是 AUC 分数，另一个是低假阳性率下对应的真阳性率。

  Main Results
  主实验结果如表所示，整体来说，本文方法在多个模子和基准数据集上的体现优于现有方法。
  首先是在 WikiMIA 的检测上，这个数据集相比与其余两个规模为 1w 大小的数据集而言较小，只有 250 条数据，同期工作 Min-k%++ Prob 在个别模子的检测结果上优于我们，考虑到 Min-k%++ Prob 方法是从其他角度对词元概率进行校准再进行检测分数计算的方法，我们可以公道地推测词元概率受到多种因素的影响，而不仅仅是词频，因此直接依赖词元概率进行检测是不太稳固的，将来工作也可以从这方面去探索其他校准词元概率的方法，使之更适合检测，或者是更创新地探索更有效的特性来作为训练数据检测的信号。
  最后，通过在中文基准数据集上的实验结果表明，除了基于英文大小写特性进行检测的 Lowercase 方法，现有的方法还是适用于中文文本检测的，而且我们的方法仍旧取得最佳的结果。

  Ablation Study
  本文所提方法在详细执行过程中，接纳了两个策略。首先是在基于词元概率与词元频率计算交叉熵，为文本中的每个词元Xi得到一个新的值α之后，作者设置了一个超参数 a 来控制α的上限，以防止终极的检测分数被个别词元的值所主导，此处记为 LUP 策略。
  其次是由于模子通常会给那些在文本此前出现过的词，赋予较高的猜测概率，以是仅选取在文本中第一次出现的词对应的值，来计算最后的检测分数，此处记为 SFO 策略。
  CLD 表现都不采取两个策略时的方法变体，+ LUP 是指在 CLD 方法变体的底子上纳入第一个策略，+ SFO 是指在 CLD + LUP 方法变体的底子上再纳入第二个策略。
  实验结果如图所示，实验结果表明，这两个策略在整体上对所提方法性能的提升都有肯定的贡献。但有一点需要注意的是，在检测 GPT-3 时，LUP 策略并没有起到太大的结果，作者推测，大概是由于该策略涉及到超参数设置所导致的，因今后续也对 LUP 中涉及的超参数设置做了进一步分析。

  Impact of model size and text length
  实验的最后，作者对一些大概影响方法性能的因素做了进一步分析，首先是两个方法无关的因素，待检测模子的大小，以及待检测文本的长度。
  左图是检测方法性能随待检测模子大小变化的变化环境，这里本文采取了 Qwen1.5 系列的模子在 PatentMIA 基准数据集上的检测结果。实验结果表明，检测方法的性能随着待检测模子大小的增加而增加，这进一步证实了此前研究的结论，这种现象大概是由于较大的模子具有更大的参数目，使之在影象和处理文本上的本领更强所导致，其中本文所提方法在各种模子规模设定下一致地优于现有方法。
  右图是检测方法性能随待检测文本长度变化的变化环境，这里采取了 Qwen1.5 的 7B 版本模子在 PatentMIA 基准数据集多种长度版本下的检测结果。实验结果表明，检测方法的性能随着待检测文本的长度增加也呈现出增加，这同样证实了此前研究的结论，这大概是较长的文本携带了更多有助于模子影象文本的的信息所导致的，其中本文所提方法也在各种长度版本设定下一致地优于现有方法。

  Impact of a reference corpus
  最后探究一下方法相关的两个因素。第一个因素是参考语料库，回顾本方法涉及大模子训练语料库的词元频率分布计算，但由于大模子的训练语料库不可知，作者借助一个公开的大型语料库来近似计算这个分布。
  此处的实验探究了参考语料库的选择对方法性能的影响环境。详细地，作者从语料库的数据规模和数据内容两个维度入手，在数据规模上，探索了分别选择规模大小为 1G 和 10G 时的语料作为参考语料库时，方法的性能体现环境；在数据内容上，探索了分别选择数据来源为网页数据和专业领域数据的语料作为参考语料库时，方法的性能体现环境。
  实验结果如表中所示，方法性能的变动，受参考语料库的数据规模，和数据内容的影响较小，表明我们的方法在参考语料库的选择上并不敏感。
  其中选择为 10 G 的 C4 语料时，方法的体现最好，作者认为是由于该选择，在规模上相较于 1G 更大，在内容上相比于专业领域数据更多样，使得其数据分布更接近原始的训练数据分布，进而能取得更好的性能体现。

  Impact of the hyperparameter
  另一个因素是前面提到的超参数设置，本文在基于词元概率与词元频率计算交叉熵，为文本中的每个词元得到一个新的值之后，设置了一个超参数 a 来控制的上限，以防止终极的检测分数被个别词元的值所主导。
  这里的实验就是想探究不同大小的超参数设置下，方法性能的变动环境。实验结果如表中所示，方法对该参数还是有一点敏感的，这是由于较高的超参数设置不能有效地限制上限，起不到预期作用，而较低的超参数设置将导致最后为每个词元计算的值都一样，进而使得训练文本和非训练文本的分数相似而难以区分。
  但尽管如此，本文的方法在多种超参数设置下仍旧取得具有竞争力的性能体现，将来大概可以探索自适应的超参数设置方法来改进这方面的缺陷。

  Conclusion
  首先本文构造了一个新的基准数据集，用于评估现有方法在中文文本上的检测结果，补充现有研究在这一块上的空白；
  其次作者受信息检索领域 DFR 理论的启发，提出一种新的检测方法来校准词元概率，使之更适用于训练数据的检测；
  最后通过大量实验进一步证实所提方法的有效性；
  在将来工作中，作者表现大概会探索数据集级别的预训练数据检测方法，而不仅仅实现对单条文本的检测。

本期文章由陈研整理

往期出色文章推荐

  AAAI 2025预讲会一作讲者招募｜个人和团队报名通道开启
   关于AI TIME
  AI TIME源起于2019年，旨在发扬科学思辨精力，邀请各界人士对人工智能理论、算法和场景应用的本质标题进行探索，增强头脑碰撞，链接举世AI学者、行业专家和爱好者，希望以辩论的形式，探究人工智能和人类将来之间的抵牾，探索人工智能领域的将来。
  迄今为止，AI TIME已经邀请了2000多位海表里讲者，举行了逾700场运动，超800万人次观看。

  我知道你
  在看
  提出观点，表达想法，欢迎
  留言

点击 阅读原文 观看作者讲解回放！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

EMNLP'24 最佳论文解读 | 大语言模子的预训练数据检测：基于散度的校准方法 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

EMNLP'24 最佳论文解读 | 大语言模子的预训练数据检测：基于散度的校准方法 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

登录参与点评抽奖加入IT实名职场社区