北航：比SAM快30倍的SAM-Lightening_凌宝COCO社区

楼主

发表于2024-03-17 23:02:37回复0浏览 226

【1】Segment Anything Model (SAM)因其零样本泛化能力在分割任务中引起了广泛关注。然而，由于注意力机制带来的低推理速度和高计算内存需求，SAM在实际应用中的广泛应用受到了限制；

【2】现有的研究集中在优化编码器上，但并未充分解决注意力机制本身的低效问题，即使经过蒸馏得到较小的模型，仍然有进一步改进的空间。为应对这一挑战，我们引入了SAM-Lightening，这是SAM的一个变种，其特点重新计的注意力机制，称为Dilated Flash Attention；

【3】它不仅提高了并行性，增强了处理效率，还与现有的FlashAttention保持兼容性。同时，我们提出了一种渐进式蒸馏技术，实现了从原始的SAM中高效地进行知识传递，而无需昂贵的从头开始训练。在COCO和LVIS数据集上实验证明，SAM-Lightening在运行时效率和割准确性方明显优于现有方法；

【4】具体而言，它可以在图像大小为1024×1024像素的情况下，每张图像达到7毫秒的推理速度，这比原始的SAM快30.1倍，比最先进的方法快2.1倍。此外，它仅需要244MB的内存，相当于原始SAM3.5%。

大图浏览