知识蒸馏 | Xielei's Blog

知识蒸馏（Knowledge Distillation）是一种模型压缩技术，它允许一个大型、复杂的模型（称为“教师模型”）的知识被转移到一个更小、更简单的模型（称为“学生模型”）。这种方法的核心目的是在保持性能的同时减少模型的复杂性和计算资源需求，从而使得模型更适合在资源受限的环境下部署。[1]
知识蒸馏的基本流程包括两个阶段：首先是训练一个复杂的教师模型，然后使用这个模型的输出或中间结果作为学生模型训练的监督信号来训练一个结构更简单、参数更少的学生模型。
在知识蒸馏中，根据所使用的知识类型，可以将其分为几种不同的策略，每种策略利用教师模型的不同方面来指导学生模型的学习。以下是三种主要的知识蒸馏策略：
基于响应的知识蒸馏，这种策略主要关注于教师模型的最后一层输出，即类别的logits（未经softmax层处理的原始输出）。学生模型的目标是模仿这些logits，而不是直接模仿softmax层后的概率分布。这种方法假设对数向量Z为全连接层的最后输出，学生模型的训练可以通过最小化学生模型的logits和教师模型的logits之间的差异来完成。这种差异通常通过KL散度（Kullback-Leibler divergence）来衡量，优化该损失函数可以使学生模型的logits与教师模型的logits相匹配。此外，通过引入温度参数T，可以调整softmax函数的输出，使得学生模型学习到的类别概率分布更加平滑，从而更好地捕捉教师模型的知识。这种方法特别适用于图像分类任务中，其中软目标（soft targets）是输入类别的概率，可以通过softmax函数结合温度参数来估计。
基于特征的知识蒸馏，与基于响应的知识蒸馏不同，基于特征的知识蒸馏关注的是教师模型中间层的激活或特征图。这种方法的核心思想是将教师模型和学生模型的中间层特征直接匹配起来。通过最小化两个模型在中间层特征表示上的差异，学生模型可以学习到更丰富的信息，这不仅包括了最终的预测结果，还包括了数据的中间层次表示。特征匹配通常通过一些相似性度量来实现，如L1范数、L2范数或交叉熵等。这种方法特别适用于深度神经网络，因为它们在不同层学习到的特征具有不同层次的语义信息。基于特征的知识蒸馏可以为学生模型提供更丰富的信息，帮助其更好地泛化。
基于关系的知识蒸馏，进一步探索了不同层或数据样本之间的关系。这种策略不仅考虑单个样本的知识，还考虑样本之间的关系，如成对样本的相似性或类别之间的关系。这种关系可以是显式的，如成对样本的相似性，或者是隐式的，如通过图结构来表示的数据点之间的关系。
在关系蒸馏中，学生模型不仅学习教师模型的特征表示，还学习这些特征之间的关系。例如，可以使用成对的教师模型特征图和学生模型特征图之间的相似性度量作为损失函数的一部分。这种方法可以帮助学生模型学习到更复杂的数据结构和模式，从而提高其性能。
另外，知识蒸馏的实施方式可以根据教师模型和学生模型的更新策略来分类，主要分为离线蒸馏、在线蒸馏和自蒸馏三种模式：
离线蒸馏
离线蒸馏（Offline Distillation）是最常见的知识蒸馏方法，它涉及两个阶段的训练过程：首先独立训练一个大型的教师模型，直到其性能达到最优。接着，使用教师模型在训练集上生成的软目标（如softmax层的概率分布）作为训练信号来训练学生模型。学生模型学习模仿这些软目标，而不是直接学习原始数据的硬标签。离线蒸馏的优点在于简单和易于实现，但它的缺点是训练时间长，且学生模型对教师模型有较大依赖性。此外，由于教师模型在学生训练阶段是固定的，它不能适应学生模型的学习进度。
在线蒸馏
在线蒸馏（Online Distillation）是一种端到端的训练方案，其中教师模型和学生模型同时更新。在线蒸馏的关键在于，它允许学生模型从教师模型中学习，同时教师模型也可以从学生模型中获得反馈，从而实现两者的协同优化。在线蒸馏的优点是可以更灵活地调整教师和学生模型之间的关系，但实现起来相对复杂，需要更精细的调参和训练策略。
自蒸馏
自蒸馏（Self-Distillation）是一种特殊的在线蒸馏，其中教师模型和学生模型实际上是同一个网络，或者学生模型是教师模型的一个副本。自蒸馏的优点在于可以更有效地利用网络自身的能力，并且有助于提高模型的泛化能力。此外，自蒸馏不需要额外的教师模型，从而节省了计算资源。

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. In NIPS Deep Learning and Representation Learning Workshop.