解决语义搜索痛点，基于对比学习的领域特定文本嵌入模型微调实践

文本嵌入模型能够将文本转换为具有语义意义的向量表示，广泛应用于检索、分类等多种任务场景。然而，通用嵌入模型在处理特定领域任务时往往存在性能瓶颈。微调技术为解决这一问题提供了有效途径。本文将深入探讨嵌入模型微调的核心原理，并以AI职位匹配为例，详细阐述基于对比学习的微调实现过程。

检索增强生成中的嵌入应用

检索增强生成（Retrieval-Augmented Generation, RAG）是文本嵌入模型的重要应用场景之一。在RAG系统中，当接收到用户输入（如客户询问）时，系统会自动从知识库中检索相关上下文信息（如FAQ条目），并将其传递给大型语言模型进行后续处理。

基于嵌入的检索过程遵循标准的三步骤流程：首先为知识库中的所有文档计算向量表示，然后使用相同的嵌入模型将输入文本转换为向量，最后通过计算输入向量与知识库向量间的相似度来识别最相关的文档。

这种语义搜索方法为处理任意文本内容提供了简洁而灵活的解决方案，但在实际应用中仍面临关键挑战。

语义相似性与相关性的偏差问题

语义搜索的核心局限在于相似性与相关性之间的偏差。即使查询与知识库项目在语义上高度相似（表现为嵌入向量间的小夹角），这种相似性也不能保证检索结果能够有效回答用户查询。

以客户服务场景为例，用户查询"我如何更新我的付款方式？"可能会匹配到"要查看您的付款历史记录，请访问您账户的账单部分"这样的结果。尽管两者在语义上相关，但检索结果并未提供解决用户问题所需的实际信息。

基于对比学习的嵌入微调方法

嵌入微调通过在特定任务数据上进行额外训练来调整预训练模型的表示能力。这种方法特别适用于需要匹配不同长度文本（如简短查询与详细文档）或理解领域特定术语的场景。例如，在云计算领域，"扩展"和"实例"等术语具有专门的技术含义，通用模型可能无法准确表示这些概念。

对比学习是实现嵌入微调的核心技术。该方法通过在相关文本对之间最小化嵌入距离，同时在不相关文本对之间最大化嵌入距离，训练模型区分有用和无用的检索结果。

微调实现的五个关键阶段

嵌入微调的完整流程包括五个核心阶段：数据准备、模型选择、损失函数设计、模型训练和性能评估。下面以AI职位匹配为例，详细说明每个阶段的具体实现。

阶段一：构建正负样本对数据集

数据准备是微调过程中最关键且最耗时的环节。本案例从Hugging Face数据集中提取了涵盖数据科学家、数据工程师、AI工程师等关键职位的工作描述。

 from datasets import load_dataset  
 
 # 从HF hub加载数据
 ds = load_dataset("datastax/linkedin_job_listings")

为了生成更贴近实际搜索场景的查询，使用OpenAI的批处理API通过GPT-4o-mini为每个职位描述生成对应的类人化搜索查询。批处理API虽然需要24小时处理时间，但成本仅为即时处理的50%，整个数据生成过程仅花费0.12美元。

考虑到大多数文本嵌入模型的512标记限制，需要对职位描述进行预处理，移除与职位资格无关的冗余信息。经过数据清洗和去重处理，最终获得1012个有效的职位描述-查询配对。

为了提升对比学习效果，进一步为每个正样本对构建负样本对。使用预训练嵌入模型计算所有职位描述间的语义相似度，然后为每个正样本对选择最不相似的职位描述作为负样本，确保负样本的唯一性。

 from sentence_transformers import SentenceTransformer  
import numpy as np  

# 加载嵌入模型
model = SentenceTransformer("all-mpnet-base-v2")  

# 编码所有工作描述
job_embeddings = model.encode(df['job_description_pos'].to_list())  

# 计算相似性
similarities = model.similarity(job_embeddings, job_embeddings)

# 将与正匹配最不相似的JD匹配为负匹配

# 获取相似性的排序索引
similarities_argsorted = np.argsort(similarities.numpy(), axis=1)  

# 初始化列表来存储负样本配对
negative_pair_index_list = []  

for i in range(len(similarities)):  

    # 从当前行的最小相似性索引开始
    j = 0  
    index = int(similarities_argsorted[i][j])  

    # 确保索引是唯一的
    while index in negative_pair_index_list:  
        j += 1  # 移动到下一个最小索引
        index = int(similarities_argsorted[i][j])  # 获取下一个最小索引

    negative_pair_index_list.append(index)  

# 将负样本配对添加到df
df['job_description_neg'] =   
               df['job_description_pos'].iloc[negative_pair_index_list].values

按照80%训练集、10%验证集、10%测试集的比例划分数据，并将处理后的数据集上传至Hugging Face Hub，便于后续访问和使用。

 # 打乱数据集
df = df.sample(frac=1, random_state=42).reset_index(drop=True)  

# 分割为训练、验证和测试集（例如，80%训练，10%验证，10%测试）
train_frac = 0.8  
valid_frac = 0.1  
test_frac = 0.1  

# 定义训练和验证大小
train_size = int(train_frac * len(df))  
valid_size = int(valid_frac * len(df))  

# 创建训练、验证和测试数据集
df_train = df[:train_size]  
df_valid = df[train_size:train_size + valid_size]  
df_test = df[train_size + valid_size:]

from datasets import DatasetDict, Dataset  

# 将pandas DataFrames转换回Hugging Face Datasets
train_ds = Dataset.from_pandas(df_train)  
valid_ds = Dataset.from_pandas(df_valid)  
test_ds = Dataset.from_pandas(df_test)  

# 合并到DatasetDict中
dataset_dict = DatasetDict({  
    'train': train_ds,  
    'validation': valid_ds,  
    'test': test_ds  
})  

# 将数据推送到hub
 dataset_dict.push_to_hub("shawhin/ai-job-embedding-finetuning")

处理完成的数据集可通过简单的API调用进行加载：

 from datasets import load_dataset  
 
 # 导入数据
 dataset = load_dataset("shawhin/ai-job-embedding-finetuning")

阶段二：预训练模型选择与评估

在获得训练数据后，需要选择合适的预训练模型作为微调基础。通过对比多个基础模型和语义搜索专用模型的性能，选择最优的候选模型。

评估过程使用三元组评估器（TripletEvaluator），该评估器接受查询、正样本职位描述、负样本职位描述的三元组，并计算模型在验证集上的准确率。

 from sentence_transformers import SentenceTransformer  
from sentence_transformers.evaluation import TripletEvaluator  

# 导入模型
model_name = "sentence-transformers/all-distilroberta-v1"  
model = SentenceTransformer(model_name)  

# 创建评估器
evaluator_valid = TripletEvaluator(  
    anchors=dataset["validation"]["query"],  
    positives=dataset["validation"]["job_description_pos"],  
    negatives=dataset["validation"]["job_description_neg"],  
    name="ai-job-validation",  
)  
evaluator_valid(model)  

 #>> {'ai-job-validation_cosine_accuracy': np.float64(0.8811881188118812)}

经过多模型对比分析，选择"all-distilroberta-v1"作为微调基础，该模型在验证集上展现出最高的基准准确率。

阶段三：损失函数配置

损失函数的选择需要根据具体的数据格式和下游任务需求进行确定。Sentence Transformers文档提供了详细的损失函数选择指南，针对不同数据格式推荐相应的损失函数。

本案例采用MultipleNegativesRankingLoss，该损失函数专门设计用于处理（锚点、正样本、负样本）三元组格式的数据。

 from sentence_transformers.losses import MultipleNegativesRankingLoss  
 
 loss = MultipleNegativesRankingLoss(model)

阶段四：模型微调训练

在完成数据准备、模型选择和损失函数配置后，开始进行模型微调训练。首先需要定义关键的训练超参数。

对比学习的有效性在很大程度上取决于较大的批次大小和充分的训练时间。为了保持实现的简洁性，本案例采用了经过验证的超参数配置。

 from sentence_transformers import SentenceTransformerTrainingArguments  

num_epochs = 1  
batch_size = 16  
lr = 2e-5  
finetuned_model_name = "distilroberta-ai-job-embeddings"  

train_args = SentenceTransformerTrainingArguments(  
    output_dir=f"models/{finetuned_model_name}",  
    num_train_epochs=num_epochs,  
    per_device_train_batch_size=batch_size,  
    per_device_eval_batch_size=batch_size,  
    learning_rate=lr,  
    warmup_ratio=0.1,  
    batch_sampler=BatchSamplers.NO_DUPLICATES,  # MultipleNegativesRankingLoss受益于批次中没有重复样本
    eval_strategy="steps",  
    eval_steps=100,  
    logging_steps=100,  
 )

使用SentenceTransformerTrainer进行模型训练，该训练器提供了完整的微调流程管理功能。

 from sentence_transformers import SentenceTransformerTrainer  

trainer = SentenceTransformerTrainer(  
    model=model,  
    args=train_args,  
    train_dataset=dataset["train"],  
    eval_dataset=dataset["validation"],  
    loss=loss,  
    evaluator=evaluator_valid,  
)  
 trainer.train()

阶段五：模型性能评估

微调完成后，需要对模型性能进行全面评估。使用与阶段二相同的评估方法，分别在验证集和测试集上测试模型表现。

评估结果显示，微调后的模型在验证集上达到99%的准确率，在测试集上实现100%的准确率，表明微调过程显著提升了模型在特定任务上的性能。

为了便于后续部署和使用，可以将训练好的模型上传至Hugging Face Hub：

 # 将模型推送到HF hub
 model.push_to_hub(f"shawhin/{finetuned_model_name}")

微调后的模型可以直接用于实际推理任务：

 # 导入模型
model = SentenceTransformer("shawhin/distilroberta-ai-job-embeddings")  

# 新查询
query = "data scientist 6 year experience, LLMs, credit risk, content marketing"  
query_embedding = model.encode(query)  

# 编码JD
jd_embeddings = model.encode(dataset["test"]["job_description_pos"])  

# 计算相似性
 similarities = model.similarity(query_embedding, jd_embeddings)