深瞳灵感
由来
CNN结构主要用于各种专业视觉模型,一般需要从头搜集专业数据训练,搜集各种专业数据费时费力。随着大模型兴起,研究人员发现通过大量多样化数据训练的预训练模型可以容易地泛化到各种专业任务。因此我们设计了MVT(Margin-based pretrained Vision Transformer),我们将该模型命名为“深瞳灵感”,该模型通过大量图像数据训练具备了较好的泛化性,并在各种专业下游任务中取得比基于CNN模型更好的结果。
优势

“深瞳灵感”模型使用大量图像数据预训练,使得模型对图像具有很好的表达能力和泛化性,因此它能被使用到各种下游的视觉任务中提升下游模型的效果。作为视觉基础模型,可以通过线性探测或下游任务的效果表征视觉基础模型的效果。线性探测(LinearProbing)是一种用于评估预训练模型性能的方法,通过替换模型的最后一层为线性层并保持其余部分不变。在此过程中,仅训练这个线性层,以测试模型的表征学习能力。

我们对比了CLIP和OpenCLIP在26个分类测试集中线性探测的结果,同等模型下我们平均准确率比OpenCLIP高2.3%,比CLIP高1.1%。

DATASETGlint-MVTCLIPOPNCLIP
CIFAR10092.087.587.9
VOC200792.589.691.7
EuroSAT99.198.297.1
KITTI78.264.777.5

Glint-RefSeg NO.1

Glint-RefSeg是我们基于“深瞳灵感”训练的引用表达分割模型,它将MVT v1.4(MLCD)作为视觉编码器,同时结合大语言模型和SAM解码器,可以根据用户指令给出图像中对应物体的分割掩膜。普通的分割模型需要在构建模型前定义出需要分割物体的类别,采集对应数据进行训练。而Glint-RefSeg利用大模型的能力可以分割任何类别的物体而无需特别搜集训练。相比其他RES任务的模型,Glint-RefSeg取得了当前的SOTA (最好结果)。

用户给出一张图和一个描述,模型就可以根据描述给出对应分割掩膜。

Glint-RefSeg
Original Fish
普通分割模型
Refined Fish

RefCOCO Segmentation Evaluation Results

RefCOCO是一个RES数据集,测试指标Overall Intersection-over-Union (oIoU),计算的预测掩膜与真值掩膜交集面积与总并集面积的比值。

DATASETSplitGlint-RefSegEVF-SAMGLaMMVisionLLM v2LISA
RefCOCOval83.682.479.579.274.9
RefCOCO+testA82.980.078.775.870.8
RefCOCOgtest80.578.374.974.870.6

在开源VLM框架LLaVA-NeXT中使用MVT-VLM作为图像编码器,Qwen作为大语言模型,可以取得比其他图像编码器更好的结果,相关代码已经合并到LLaVA-NeXT工程中。

DATASETMVT-VLMCLIPSigLIPDFN5B
ChartQA73.866.5269.2864.36
DocVQA83.3475.2176.7170.87
InfoVQA46.5938.8841.3838.59
OCRBench582.00525.00554.00473.00

将Glint-MVT直接用于图像特征提取即可提升图片检索能力,在Inshop数据集上,Glint-MVT-feat的首位召回率超过最好的其他方法。

DATASETMVTv1STIRMGAHyp-ViTHyp-DINOCCL
InShop96.79594.392.592.492.31

MVT-det

应用Glint-MVT做主干网络,训练检测或分割模型,检测平均精度在学术界通用测试集COCO和LVIS上相比其他主干网络有7%的提升。

DATASETMVT-det/segDINOv2SigLIP
COCO检测38.931.635.0
COCO分割31.524.328.1
LVIS检测26.518.721.8
LVIS分割21.414.117.3

MVT-cls

应用Glint-MVT做主干网络,训练分类模型,可以提升分类准确率。在全参数微调设置下,Glint-MVT-cls在ImageNet 1K分类测试集达到了87.1%的准确率。

MethodMVTv1.1DINOv2CLIPOPENCLIP
Linear Probe87.18685.484.85
灵感团队

冯子勇

主要研究机器学习、深度学习、计算机视觉。现深瞳灵感系列模型负责人,带领团队完成深瞳灵感Glint-MVT系列模型研发。研究表征学习理论并将其应用于深瞳灵感模型中。个人日常爱吃美食和探索新事物。

王雨濛

拥有15年行业经验,专注于人工智能技术的研究与应用。在灵感大模型研发过程中主导了训练工程,开发了大部分的训练算法以及数据清洗流程。擅长设计各类算法解决实际问题,乐于分析和解决各类复杂Bug。喜欢健身、研究百科、喜欢古典音乐。

安 翔

专注于计算机视觉领域的算法开发与前沿研究,是知名开源人脸识别框架 InsightFace 的贡献者之一。在深瞳灵感研发中,主要负责视觉基座模型的训练,主攻分布式训练加速和视觉基座表征优化。业余时间,热爱游泳,享受运动带来的乐趣与放松。

赵永乐

主攻图像识别、多模态大模型与强化学习算法。在深瞳灵感研发中负责算法方向把握与模型方案设计,偏好通用图像理解与智能体任务规划,最爱喝拿铁,看足球比赛偶尔踢球放松。

谢 尹

单线程worker,负责在深瞳灵感VLM中将视觉与语言进行高效连接,促使视觉和语言部件在有限数据下实现相互融合与理解。擅长利用大规模算力集群和海量数据进行模型预训练研究。平日爱好读书与黑咖。

闫梓祯

拥有多年AI工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于AI Infra方向,负责灵感模型的训推优化与应用落地工作。日常喜欢“调戏”大模型,沉迷提示词改写无法自拔。

于 杰

专注“折腾”AI领域“30年”,特别是深度学习工程化,对LLM、VLM等大规模模型和传统CV的小规模模型落地工程化有较为深入的研究,在灵感中负责工程化落地的相关工作,在折腾AI之余也会抽出时间来对各类游戏进行鉴赏。

典型案例
K 罗

K 罗

我们从4年前开始在银行网点实现了数十种算法试图解决解决场景下各种行为判断、物体识别,但做到一定程度就很难再提高它召回率和准确率,客户开始抱怨。规模化落地遇到了很大困难,23年我们尝试了深瞳灵感预训练视觉模型,在灵感团队的帮助下,我们重构了整个训练架构,重新训练了我们的多种原来一半还少的数据),整个算法的效果终于得到了突破性的进展,最终让我们在24年达成了30万路镜头下数十个算法高它召回、高准确的运行!感谢灵感模型,感谢灵感团队。