楼主
发表于2024-03-17 23:02:37查看 226回复0浏览 226

【1】Segment Anything Model (SAM)因其零样本泛化能力在分割任务中引起了广泛关注。然而,由于注意力机制带来的低推理速度和高计算内存需求,SAM在实际应用中的广泛应用受到了限制;

【2】现有的研究集中在优化编码器上,但并未充分解决注意力机制本身的低效问题,即使经过蒸馏得到较小的模型,仍然有进一步改进的空间。为应对这一挑战,我们引入了SAM-Lightening,这是SAM的一个变种,其特点重新计的注意力机制,称为Dilated Flash Attention;

【3】它不仅提高了并行性,增强了处理效率,还与现有的FlashAttention保持兼容性。同时,我们提出了一种渐进式蒸馏技术,实现了从原始的SAM中高效地进行知识传递,而无需昂贵的从头开始训练。在COCO和LVIS数据集上实验证明,SAM-Lightening在运行时效率和割准确性方明显优于现有方法;

【4】具体而言,它可以在图像大小为1024×1024像素的情况下,每张图像达到7毫秒的推理速度,这比原始的SAM快30.1倍,比最先进的方法快2.1倍。此外,它仅需要244MB的内存,相当于原始SAM3.5%。