Pytorch—模型微调（fine-tune）

2025-11-14 23:45:42 限时副本 2602

随着深度学习的发展，在大模型的训练上都是在一些较大数据集上进行训练的，比如Imagenet-1k，Imagenet-11k,甚至是ImageNet-21k等。但我们在实际应用中，我们自己的数据集可能比较小，只有几千张照片，这时从头训练具有几千万参数的大型神经网络是不现实的，因为越大的模型对数据量的要求越高，过拟合无法避免。因为适用于ImageNet数据集的复杂模型，在一些小的数据集上可能会过拟合，同时因为数据量有限，最终训练得到的模型的精度也可能达不到实用要求。

解决上述问题的方法：

收集更多数据集，当然这对于研究成本会大大增加

应用迁移学习（transfer learning）：从源数据集中学到知识迁移到目标数据集上。

1、模型微调（fine-tune）

微调(fine-tune)通过使用在大数据上得到的预训练好的模型来初始化自己的模型权重，从而提升精度。这就要求预训练模型质量要有保证。微调通常速度更快、精度更高。当然，自己训练好的模型也可以当做预训练模型，然后再在自己的数据集上进行训练，来使模型适用于自己的场景、自己的任务。

先引入迁移学习（Transfer Learning）的概念：

当我们训练好了一个模型之后，如果想应用到其他任务中，可以在这个模型的基础上进行训练，来作微调网络。这也是迁移学习的概念，可以节省训练的资源以及训练的时间。

迁移学习的一大应用场景就是模型微调，简单的来说就是把在别人训练好的基础上，换成自己的数据集继续训练，来调整参数。Pytorch中提供很多预训练模型，学习如何进行模型微调，可以大大提升自己任务的质量和速度。

假设我们要识别的图片类别是椅子，尽管ImageNet数据集中的大多数图像与椅子无关，但在ImageNet数据集上训练的模型可能会提取更通用的图像特征，这有助于识别边缘、纹理、形状和对象组合。这些类似的特征对于识别椅子也可能同样有效。

为什么需要迁移学习：

1) 大数据与少标注的矛盾虽然有大量的数据，但往往都是没有标注的，无法训练机器学习模型。人工进行数据标定太耗时。

2) 大数据与弱计算的矛盾普通人无法拥有庞大的数据量与计算资源。因此需要借助于模型的迁移。

3) 普适化模型与个性化需求的矛盾即使是在同一个任务上，一个模型也往往难以满足每个人的个性化需求，比如特定的隐私设置。这就需要在不同人之间做模型的适配。

4) 特定应用（如冷启动）的需求

迁移学习可以初步初始化网络，因为对一些比较类似的任务，其实模型参数的值基本上相同，而且这些参数经过大量的训练，已经有很好的特征提取能力，将backbone参数使用这类模型进行权重的初始化，后面做training的时候，模型收敛速度会更快。

负迁移问题：

负迁移(Negative Transfer)指的是，在源域上学习到的知识，对于目标域上的学习产生负面作用。

产生负迁移的原因主要有：

1、数据问题：源域和目标域压根不相似，谈何迁移？

2、方法问题：源域和目标域是相似的，但是，迁移学习方法不够好，没找到可迁移的成分。

负迁移给迁移学习的研究和应用带来了负面影响。在实际应用中，找到合理的相似性，并且选择或开发合理的迁移学习方法，能够避免负迁移现象。

2.1、为什么要微调

因为预训练模型用了大量数据做训练，已经具备了提取浅层基础特征和深层抽象特征的能力。

对于图片来说，我们CNN的前几层学习到的都是低级的特征，比如，点、线、面，这些低级的特征对于任何图片来说都是可以抽象出来的，所以我们将他作为通用数据，只微调这些低级特征组合起来的高级特征即可，例如，这些点、线、面，组成的是园还是椭圆，还是正方形，这些代表的含义是我们需要后面训练出来的。

如果我们自己的数据不够多，泛化性不够强，那么可能存在模型不收敛，准确率低，模型泛化能力差，过拟合等问

一次性掌握所有Windows快捷键（适用于Windows10/11）
美团商家合同审核大概要多久(美团外卖商品审核要多久？)