Glint-RefSeg NO.1
Glint-RefSeg是我们基于“深瞳灵感”训练的引用表达分割模型,它将MVT v1.4(MLCD)作为视觉编码器,同时结合大语言模型和SAM解码器,可以根据用户指令给出图像中对应物体的分割掩膜。普通的分割模型需要在构建模型前定义出需要分割物体的类别,采集对应数据进行训练。而Glint-RefSeg利用大模型的能力可以分割任何类别的物体而无需特别搜集训练。相比其他RES任务的模型,Glint-RefSeg取得了当前的SOTA (最好结果)。
用户给出一张图和一个描述,模型就可以根据描述给出对应分割掩膜。


RefCOCO Segmentation Evaluation Results
RefCOCO是一个RES数据集,测试指标Overall Intersection-over-Union (oIoU),计算的预测掩膜与真值掩膜交集面积与总并集面积的比值。
DATASET | Split | Glint-RefSeg | EVF-SAM | GLaMM | VisionLLM v2 | LISA |
---|---|---|---|---|---|---|
RefCOCO | val | 83.6 | 82.4 | 79.5 | 79.2 | 74.9 |
RefCOCO+ | testA | 82.9 | 80.0 | 78.7 | 75.8 | 70.8 |
RefCOCOg | test | 80.5 | 78.3 | 74.9 | 74.8 | 70.6 |