三星等提出MOCHA知识蒸馏法，将大模型多模态语义注入YOLO，少样本检测性能大涨10.1分

三星等提出的MOCHA知识蒸馏法通过对象级多模态语义传递和双目标损失函数设计，将大型视觉-语言模型（VLM）的多模态语义注入YOLO，使其在少样本个性化检测任务中性能提升10.1分，同时保持轻量化特性。

背景与挑战

轻量化与语义能力的矛盾：大型VLM（如LLaVA）具备强大的语义理解能力，但体积庞大、推理成本高；YOLO等轻量模型速度快，但缺乏深度语义理解，尤其在少样本场景下表现不佳。
知识蒸馏的必要性：通过“教师-学生”架构，将VLM的知识迁移到YOLO中，实现轻量化部署。MOCHA旨在解决跨架构知识蒸馏中的语义对齐问题。

MOCHA的核心方法

MOCHA采用“三步配方”实现知识蒸馏：

预训练学生模型
在COCO等大规模数据集上训练标准YOLO模型，使其具备基础目标检测能力。
知识蒸馏阶段
教师模型：使用冻结的VLM（如LLaVA）作为教师，提供多模态语义知识。
学生模型：YOLO作为学生，通过MOCHA机制学习教师的语义特征。
关键创新：
对象级多模态语义传递：针对图像中的每个物体，利用VLM生成融合视觉和文本语义的特征向量（“知识精华”），而非全局特征对齐。
翻译模块与双目标损失函数：
翻译模块：将学生特征映射到与教师相同的联合空间。
局部对齐损失（Local Alignment Loss）：确保学生转换后的特征与教师特征尽可能接近。
全局关系一致性损失（Global Relational Consistency Loss）：保持学生特征空间中物体间相对关系（如“猫”与“狗”的距离）与教师空间一致。

少样本个性化检测
蒸馏完成后，冻结学生模型主干网络。
用户提供1-5个样本，训练轻量级原型学习器（Prototypical Learner），实现高效个性化检测。

技术优势

实验结果

总结与展望

MOCHA通过对象级跨架构知识蒸馏，为轻量模型注入多模态语义能力，解决了“大而全”与“小而快”的矛盾。其无需文本输入的纯视觉推理特性，为资源受限设备上的智能应用（如手机端个性化检测）提供了高效解决方案。未来，此类技术有望进一步推动AI模型的轻量化与语义化融合。

热门标签