2022-05-30 04:39:41
三星等提出的MOCHA知识蒸馏法通过对象级多模态语义传递和双目标损失函数设计,将大型视觉-语言模型(VLM)的多模态语义注入YOLO,使其在少样本个性化检测任务中性能提升10.1分,同时保持轻量化特性。
背景与挑战
MOCHA采用“三步配方”实现知识蒸馏:
预训练学生模型
在COCO等大规模数据集上训练标准YOLO模型,使其具备基础目标检测能力。
知识蒸馏阶段
教师模型:使用冻结的VLM(如LLaVA)作为教师,提供多模态语义知识。
学生模型:YOLO作为学生,通过MOCHA机制学习教师的语义特征。
关键创新:
对象级多模态语义传递:针对图像中的每个物体,利用VLM生成融合视觉和文本语义的特征向量(“知识精华”),而非全局特征对齐。
翻译模块与双目标损失函数:
翻译模块:将学生特征映射到与教师相同的联合空间。
局部对齐损失(Local Alignment Loss):确保学生转换后的特征与教师特征尽可能接近。
全局关系一致性损失(Global Relational Consistency Loss):保持学生特征空间中物体间相对关系(如“猫”与“狗”的距离)与教师空间一致。

蒸馏完成后,冻结学生模型主干网络。
用户提供1-5个样本,训练轻量级原型学习器(Prototypical Learner),实现高效个性化检测。


MOCHA通过对象级跨架构知识蒸馏,为轻量模型注入多模态语义能力,解决了“大而全”与“小而快”的矛盾。其无需文本输入的纯视觉推理特性,为资源受限设备上的智能应用(如手机端个性化检测)提供了高效解决方案。未来,此类技术有望进一步推动AI模型的轻量化与语义化融合。