基于重要性加权的LLM自我改进：考虑分布偏移的新框架

LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。

论文的主要贡献如下:

提出了一个称为DS权重的指标,借助一个微小的有效集来近似LLM自生成数据的DSE
利用DS权重,构建了一个新颖的自我改进框架,称为基于重要性加权的自我改进(IWSI),其中过滤策略同时考虑了答案正确性和DSE
实证检验了论文提出方法的有效性,分析了高DSE样本对LLM自我改进的影响,并探讨了DS权重如何与其他过滤标准相互作用

方法论

给定一个无监督(仅问题)数据集D𝑞,首先使用预训练的LLM M𝐿使用CoT提示每个问题生成多个候选答案以及推理思路,然后IWSI使用多数投票选择最一致的答案和相应的思路,存储在过滤后的数据集D𝑐中在微小有效集D𝑣的帮助下,IWSI计算D𝑐中每个数据点的DS权重。IWSI通过保留DS权重最低的𝑘%样本将D𝑐过滤成D𝑑𝑠,最后对M𝐿进行自我训练

1、候选答案生成和自一致性过滤

2、DS权重计算

3、利用DS权重改进LLM

通过DS权重测量DSE，能够进一步过滤D𝑐中的自生成数据，排除可能具有较高DSE的数据点，所有数据点根据其DS权重𝑤𝐷𝑆 𝑖进行排序，并选择𝑘-百分位数𝜎𝑘%，使得：

其中|·|表示集合大小，𝑤𝐷𝑆 𝑖是样本𝑥𝑖的相应DS权重

这样只有𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%的样本被保留用于训练模型M𝐿。训练损失可以写为：

其中𝟙𝑘%(𝑥𝑖)等于𝟙(𝑤𝐷𝑆 𝑖 ≤ 𝜎𝑘%)，L代表sft损失。

实验结果

1、基线

LMSI[6]：首个显著提高LLM推理能力而不需要任何外部监督的自我改进框架。LMSI的核心思想是采用多数投票来选择最可能正确的答案，从而过滤自生成数据

MoT[7]使用熵来衡量答案的不确定性，并进一步过滤数据。作者将这种技术与LMSI结合，并将其称为Entropy-filter

Self-Alignment[8]表明LLM自我评估在过滤策略中可能有帮助。作者用LMSI实现这个想法，并将其称为Self-filter

另外作者还实现了LMSI的一个变体作为参考，即RM-filter。RM-filter使用预训练的奖励模型对生成的数据进行评分，例如GENIE[9]

2、实现细节

使用Llama3-8B作为基础模型在候选答案生成阶段，让基础模型为每个问题生成15个候选答案，温度T = 1.1。每个设备的训练批次大小设置为1，梯度累积步骤为4，使用LoRA进行微调，仅在生成候选答案和评估阶段应用少样本CoT提示。

3、结果

下表显示了所有数据集的准确率结果

评估指标是准确率百分比，所有结果都是通过贪婪解码得出的。顶部是基础模型的性能。中间部分是自我改进基线和论文提出的方法IWSI

作为参考，在表格底部列出了RM-filter的性能，在自我改进方法（中间部分）中，IWSI是唯一一个始终优于LMSI的方法，并且在几乎所有数据集上都达到了最佳效果，这证明了过滤掉具有高DSE的自生成样本对LLM自我改进的有效性

与基础模型相比，LMSI在gsm8k上提升了310%，在SVAMP上提升了206%。IWSI进一步在gsm8k上超过LMSI 34.8%，在SVAMP上超过39.3%

4、超参数研究

下图显示了不同k值的准确率结果

如图所示，k值过大或过小都会导致性能下降。当k很大时，会保留更多具有高DSE的样本，从而可能损害性能；如果k非常小，则保留的样本不足以支持模型训练。最佳k值范围因任务而异。一般来说，约80%是一个适当的选择。

下图显示了DS权重的不同k-百分位数σk%

当k很小时，不同数据集的σk%相似，但随着k的增加，差异变大。这种现象表明样本DSE可被视为"高"的边界是相对的，根据不同的数据集而定。

5、有效集分析

有效集Dv在IWSI中起着至关重要的作用。它决定了DS权重的计算结果，并随后引导过滤策略。有效集组成的变化可能引入随机性，从而导致潜在的不稳定性。下图显示了IWSI前后有效集和自生成样本的分布

与作者的直觉相似，IWSI之前有效集样本和自生成样本之间的分布差异显著，而IWSI之后变得更加接近，说明IWSI在处理分布偏移问题上的有效性

6、正交性分析

在IWSI中，过滤策略考虑了两个因素：答案正确性（由自一致性表示）和样本DSE（由DS权重表示）。在下图中，第一行显示了答案正确性和DSE之间的关系，其中x轴是DSE间隔，y轴表示正确答案和错误答案的比例。第二行是在不同不确定性阈值u*下的DS权重概率密度函数曲线

对于所有数据集，观察到随着DS权重的增加，正确答案的比例普遍呈下降趋势。正确答案的最高比例出现在[1, 1.1)区间（对于gsm8k和ANLI-A1）或[1.1, 1.3)区间（对于StrategyQA），但是正确和错误的答案在每个区间都占据了不可忽视的部分，这表明这两个因素之间存在一定程度的独立性。