Domain Adaption

领域自适应

Domain Shift

分布不同 训练集和测试集有不同的分布,例如训练集是黑白的,测试集是彩色的,在训练集表现很好的模型在测试集上就会表现很差

概率不同 训练集与测试集中,类别出现的概率大不相同

标签不同 图片相同,对应的标签不同

Domain Adaptation

少量Target Data

在对Target Domain有一定了解的情况下,有小部分的图片和标签

用在训练数据(Source Domain)上训练出来的模型在这小部分数据上做微调,跑小几个epoch,模型就会对target domain有一定适应

由于数据量很少,过拟合现象容易发生

大量Target Data

在target domain上有大量的资料,但是这部分没有标注

没有标注的资料无法直接用于训练,但是这类情形是较为现实的情形

在这样的情形下,提出一个想法:

利用一个特征提取器(Feature Extractor),提取出两类图片的基础特征,要求过滤到(不考虑)不相同的部分,再用这些提取到的特征进行分类的训练

在实际操作中,就是在特征提取器的输出中,两类图片的特征向量分布要相同

实现的技术称为Domain Adversarial Training

Domain Adversarial Training

输入两类图片,经过特征提取器分为两路,一路将特征送给Label Predictor做预测,一路给Domain Classifier做二元分类

将Predictor的损失定为L,Classifier的损失定位Ld,要求特征提取器提取出不区分分布的特征,所以将Feature Extractor的损失函数定为支持L(正),对抗Ld(负)的函数,做梯度下降

Pasted image 20240810115204|500

上图做法存在问题,Exractor的损失函数定义可能造成,通过颠倒两种分布的分类结果来让Ld变大的结果,这与我们希望的”两种分布看不出不同“不一致,有改进空间

与GAN类似,可以将Extractor看为生成器,Classifier堪为判别器,两者对抗,故称为对抗性训练(Adversarial Training)

Limitation 对抗性训练的做法存在一部分限制,下图中两种分布,圆圈和三角代表Source分布的两个类别,其中虚线是两者的分界;正方形是Target分布

Pasted image 20240810115321|500

如果是左边的分布,分界的信息没有体现出来,不利于对Target Data的分类,无论结果是什么,分界线的位置上总归不存在某种类别,所以可以让分布远离分界线,提高分类精度

Outlook 其实分布类别也不一定相同,可能有多种情况,例如交叉重叠,分类标签不一致等等 Pasted image 20240810120446

极少Target Data

仅有一张,或极少,且没有标签

TTT Test Time Training 详见

没有Target Data

Domain Generalization

在训练资料中收集多种分布的数据,希望模型学会弭平分布之间的不同 详见

训练集分布只有一种,希望在测试集的多种分布上也表现出很好的效果 详见

How versatile Self-supervised are

自监督模型的多功能适应性

Cross-lingual

跨语言能力

指如果模型预训练的时候有多语言的数据,其在测试时尽管没有对应语言的Fine-tune,也会有不错的结果

How

模型是否能够跨越语言,将相同语义的文字识别并认为是相似的向量?

通过实验计算,将不同上下文情况下的一个词的向量取均值作为其代表向量,与对应的其他语言同义词进行比较,计算余弦相似度

再通过计算Mean Reciprocal Rank(MRR)(平均倒数排名) 分析二者的相关性

语言之间的相关性可以解释为:语言之间的向量关系

Cross-discipline

跨学科能力

在文本上进行训练,之后在目标领域中利用文本进行映射,实现用模型的文本能力实现跨学科的预测

说明模型学习到了某些更通用的特征,使其拥有对其他任务的预测能力

那这种能力是优化(optimization)的能力还是生成(Generaliation)能力呢?

Pasted image 20240812085710|600

实际上分析loss,可以发现在优化任务中有预训练的loss降得快且多;在生成上loss都能降到接近0,看dev acc(develop set上的准确率,举一反三的能力)有预训练的效果好于没有的

事实证明都有提升

end to end 语音Q&A模型

在没有这些发现的前提下,实际上做不出端对端的语音Q&A模型,即输入一段语音问题,划分语音中答案的位置,以往都是需要做语音辨识再做回答

在认识到预训练的NLP模型可以做到跨领域任务后,语音信息就可以直接接入一个语音上的预训练模型提取特征,再随意将特征与文本做映射,输入到文本预训练模型进行预测

Pasted image 20240812091435|500

这样确实可以实现端对端的语音Q&A

Pre-training with Artificial Data

如果人工数据有用,那么模型就可以随人造资料学习不同的特征

但是并非所有的人造数据都有作用,只有一些有一定限制的数据有一定作用

  • 成对数据 数据中有成对的token,即重复出现
  • Shuffle 打乱顺序的token

发现:接近人类语言的数据模式(例如成对)可能有利于模型的学习;打乱顺序的数据强迫模型学习长序列,可能也有利于模型学习

相关概念

Mean Reciprocal Rank(MRR)

搜索算法的评价指标,搜索结果中正确结果排行位置记为rank,取rank的倒数,加和作为搜索的分数,越高说明搜索的正确性越大