KPL投注官网中山大学鸠合鹏城实验室、好意思团推出X2SAM

发布日期：2026-05-12 09:10 点击次数：77

这项由中山大学、鹏城实验室与好意思团鸠合开展的参议，以预印本时局于2026年4月27日发布在arXiv平台，编号为arXiv:2605.00891v1。感风趣风趣的读者可通过该编号检索完竣论文。

手机里的相机每天拍下无数张像片和视频，东谈主们早已习尚了用AI来识别像片里的猫咪、帮像片中的东谈主物换个布景，或者给视频打上自动字幕。关联词，当你委果去看这些AI的"眼睛"时，会发现一件有些奇怪的事——大多数横暴的AI要么只会"看图言语"，要么只会"圈出宗旨"，却很少有谁能同期把这两件事作念得既好又快，更别说同期应答图片和视频了。

这恰是这项参议要治理的问题。参议团队开发了一个名为X2SAM的系统。这个名字里的"X2"不错露出为"落拓到落拓"——落拓的指示，对应落拓类型的图像分割任务，既能处理静止的图片，也能处理动态的视频，且二者共用归拢套大脑。

---

一、为什么咱们需要一个"万能选手"？

在AI视觉规模，有一类尽头迫切的任务叫作念"图像分割"——当年地说，即是让AI把画面中每一个像素都归类，精确地圈出"哪些像素属于猫咪"、"哪些像素属于布景"。这就好比一幅填色画，AI需要把每个区域都精确地涂上对应的颜料，而不单是是在画上贴一个标签说"这里有只猫"。

现在已有两类用具各自作念这件事。一类是有益生成高质地像素级蒙版的"分割基础模子"，比如SAM和SAM2。SAM就像一把精确的好意思工刀，你用鼠标在图上点一个点，它就能把阿谁物体精确地裁出来。但问题是，它只意志鼠标点击、方框之类的"物理手势"，透顶不懂语言。你不成跟它说"帮我把视频里那只一直在白墙旁往来走动的东谈主圈出来"——它根底听不懂。

另一类是多模态大语言模子（不错把它露出为"能看图的ChatGPT"），比如LLaVA、Qwen-VL等。这类模子语言露出智商极强，你说什么它都能听懂，但它的输出是笔墨，不是精确的像素蒙版。它能告诉你"这张图里有一只橙色的猫坐在沙发上"，却无法精确地圈出那只猫的每一根髯毛。

在这两类用具之间，有一批"缝合怪"式的参议试图把二者合并，比如LISA、GLaMM等，它们让语言模子去驱动分割模子，完了"用语言描绘、用像素呈现"的成果。关联词这些模子大多只可处理静态图片，际遇视频就安坐待毙；或者能处理视频，却不赞助视觉请示（也即是说，你没法用鼠标框一个区域告诉它"帮我跟踪这个东西"）。

委果的痛点就在这里：莫得一个模子能同期作念到——露出复杂语言指示、采纳鼠标框选之类的视觉请示、处理图片、处理视频，何况把通盘这些任务融合在一个框架里，生成时候上连贯的像素蒙版。X2SAM恰是为了填补这个空白而生。

---

二、X2SAM颖慧什么？一场遮盖14种任务的"全科体检"

为了让读者有直不雅感受，不错把X2SAM遐想成一位具备"全科智商"的视觉助手，它能采纳各式时局的指示，然后在图片或视频上精确地圈出你关怀的执行。

这位助手能作念的事情，不错从图片和视频两个维度各列举七种智商来露出。在图片维度，它不错作念通用分割（把图里通盘东谈主、车、树都分类圈出来）、怒放词汇分割（圈出落拓你说出名字的东西，包括它从莫情愿磨练过的类别）、指代分割（凭证"左边阿谁穿红穿戴的东谈主"这么的描绘圈出宗旨）、推理分割（凭证"能用来倒进玻璃杯里的东西"这么需要推断的描绘找到宗旨）、接地对话生成（一边描画图面一边在对应的词语上标出蒙版）、交互式分割（你鼠标点一个点或画一个框，它就圈出阿谁区域）、视觉接地分割（你给它看一张参考图里的某个区域，它在宗旨图里找到对应物体并圈出来）。

在视频维度，这七种智商全部对应地延长过来，而且因为视频是连结的帧序列，每种智商还需要极端处理时候上的连贯性——也即是说，第一帧圈出来的那只猫，在后续几十帧里也要被精确地握续跟踪。

参议团队还有益漠视了一项新任务：视频视觉接地分割（V-VGD）。这个任务的设定是这么的：你在视频的第一帧上用鼠标框出一个宗旨，系统需要自动跟踪这个宗旨，在通盘视频的每一帧里都生成精确的蒙版。这个任务莫得现成的数据集，参议团队从两个已有的视频数据集（YT-VIS19和VIPSeg）启航，构建了YT19-VGD和VIPSeg-VGD两个新数据集，并以此建立了V-VGD基准测试体系。

---

三、X2SAM是奈何责任的？一套协同配合的"视觉大脑"

X2SAM的里面结构不错用一个由四个中枢部件构成的团队来露出，每个部件各司其职，却又紧密谐和。

第一个部件是"全局视觉露出大脑"，由视觉编码器和大语言模子构成。参议团队摄取了Qwen3-VL-4B行为这个部件的基础，这是一个同期能看图和露出语言的预磨练模子。它看重把输入的图片或视频诊治成模子能露出的语义默示，就像把一幅画翻译成一段详备的笔墨描绘一样。当你给出一条指示——无论是"圈出左边阿谁拿雨伞的东谈主"，照旧"找出视频里老是靠着白墙走来走去的阿谁东谈主"——这个大脑看重读懂你的意图，并产生一个特殊的指示信号，告诉后续的蒙版生成部件"你该去找什么"。这个指示信号即是所谓的"SEG潜在镶嵌"，不错把它露出为一张含有目口号义信息的"寻找令"。

第二个部件是"紧密像素特征索要器"，也即是蒙版编码器，它来自SAM2的架构。与大语言模子处理的"粗粒度"语义不同，蒙版编码器有益索要图像的高分辨率、细粒度特征——旯旮、纹理、局部面目这些信息。它就像一台高倍放大镜，有益盯着像素层面的细节，确保最终身成的蒙版旯旮有余精确。

第三个部件是"蒙版解码器"，看重把"寻找令"和像素特征合并，生成最终的二值蒙版（即每个像素属于宗旨照旧布景的判断）。参议团队在这里作念了一项关节的纠正：引入了"Token-to-Image Attention"（词元到图像注重力）机制。当年地说，这个机制让语言模子产生的"寻找令"八成径直与空间像素特征"对话"，而不是只是行为一个外部要求附加进来。这么作念的成果是让语义信息和空间信息深度会通，生成的蒙版不仅面目准确，而且语义对皆更好。为了让这个新机制不破碎早期磨练的踏实性，参议团队摄取了"零运转换"战略，也即是说在磨练最出手时这个机制的影响权重为零，星空体育中国官网入口跟着磨练鼓动再徐徐阐扬作用——这就像新职工入职时先不雅察、再徐徐参与，而不是第一天就大刀阔斧地改经过。

第四个部件是本参议最中枢的转变之一：蒙版记挂模块。这个模块有益治理视频处理中的时候连贯性问题。处理视频的挑战在于，视频是一帧一帧的，而且相邻帧之间的执行变化可能很巧妙，也可能很剧烈。若是每一帧都寂然处理，生成的蒙版经常会"抖动"——前一帧把东谈主圈准了，后一帧蒙版片刻偏移，看起来像是在精通，极不踏实。

蒙版记挂模块的责任经过分四步进行，造成一个轮回。当处理视频的某一帧时，它最先通过"记挂注重力"机制记忆如故处理过的历史帧的视觉特征，将历史信息与刻下帧的视觉特征会通，生成时候上连贯的视觉默示。接着，蒙版解码器驾驭这个经过时候加权的默示生成刻下帧的蒙版。蒙版生成后，"记挂编码器"把刻下帧的视觉特征和蒙版瞻望末端合并，压缩成一个"训诲视觉特征"存入记挂库。记挂库摄取先进先出（FIFO）的战略管制存储空间——最多保存最近若干帧的信息，超出容量时自动丢弃最旧的帧。这就像一个东谈主在看连结剧时，脑子里会自动保留最近几集的情节来匡助露出刻下剧情，而不会无示寂地记取每一集的每一个细节。

消融实验（即逐项考证各个组件成果的实验）显现，只加入单秩序的节略记挂特征进步有限，而加入蒙版训诲和类别训诲信息、以及多秩序特征后，视频指代分割的J&F方针从53.6大幅跳升至65.0，视频推理分割也从36.5升至53.5。这标明，让记挂模块"记取的不单是画面，还有之前圈出来的蒙版面目和语义类别"，才是时候连贯性的委果关节所在。

此外，参议团队还野心了一个"区域采样器"，用于处理视觉请示（即用户用鼠标在画面上点击或框选的区域）。它的责任旨趣是在用户指定的感风趣风趣区域内进行点采样，然后通过自妥当池化积蓄成紧凑的区域级默示，注入到大语言模子中，让模子知谈"用户关注的是这个特定区域"。这个模块莫得可学习参数，既轻量又高效。

---

四、X2SAM是奈何磨练出来的？一套全心野心的"鸠合磨练食谱"

磨练一个同期处理图片和视频、遮盖14种任务的模子，濒临的最大挑战之一是计较资源管制。图片和视频的内存滥用各异极大——一个视频片断可能包含8帧致使更多，内存占用是单张图片的数倍。若是节略地把图片和视频混在沿途磨练，要么内存爆炸，要么服从极低。

参议团队的磨练分两个阶段进行。第一阶段叫作念"无类别分割器磨练"，目的是让蒙版解码器在构兵任何语言指示之前，先学会义结金兰的面目和领域感知智商。磨练数据使用SAM的SA-1B数据鸠合的蒙版标注，王者荣耀比赛(中国)外围下注APP透顶不波及任何类别标签，让解码器只关注"这个区域的综合是什么样的"。这一步就像在教一个画家先练好素描基础，再谈颜色和执行。消融实验标明，使用SAM完竣的1B数据集（而非子集或COCO数据集）磨练这个阶段，能在真是通盘后续任务上都得到更好的成果。

第二阶段是中枢的"融合鸠合磨练"，在图片和视频的夹杂数据上同期磨练通盘14种任务。为了治理图片和视频内存滥用分歧称的问题，参议团队野心了一套"维度诊治活水线"：关于视频输入，将时候维度和批次维度作念转置，把一个包含T帧的视频拆解为T张寂然的图片，用归拢套图片级接口通过蒙版编码器处理，然后通过蒙版记挂模块串联起时候依赖相干，临了再把T帧的蒙版沿时候维度拼接记忆。这么作念的妙处在于，蒙版编码器不需要感知"它在处理视频"，只需要处理一张张图片，大大裁汰了工程复杂度。

批次管制上，视频数据的每征战批次大小固定为1，图片数据则通过批次乘数膨大为4倍，从而在交流的内存预算下让图片数据的GPU驾驭率更高。梯度累积战略也凭证模态分开建立：图片每步更新一次，视频则累积多步后再更新，进一步均衡内存与磨练踏实性。此外，一个有益野心的"时候感知采样器"把时候长度交流的视频片断分到归拢批次，幸免无谓要的填充。

最终，融合鸠合磨练仅需约3300 GPU小时，而对照实验中的"节略鸠合磨练"需要约5200 GPU小时——爽快了约36.5%的磨练本钱，同期在视频任务上还得到了更好的性能。

---

五、X2SAM的实验得益单：在哪些场地阐扬杰出？

参议团队在多半基准测试上对X2SAM进行了评估，与现存的专用模子和通用模子进行对比。

在图片分割任务上，X2SAM与相同基于图片的通用模子X-SAM比较总体保握竞争力。在图片通用分割（COCO全景分割PQ 54.1、实例分割mAP 45.8）和指代分割（RefCOCOg考证集cIoU 81.9，创下新的最优得益）上阐扬闲散。极端值得注重的是，在图片怒放词汇分割任务上，X2SAM得到了31.2 PQ，昭着高于X-SAM的20.9 PQ，证明X2SAM的语言露出智商带来了更强的泛化智商。在推理分割任务上，X2SAM以64.5 cIoU和71.1 gIoU的得益卓越了HyperSeg（分歧跳动7.8和11.9个百分点），在测试集的短问题和长问题子集上都得到了那时最优得益。

在视频分割任务上，X2SAM的上风更为权臣。在视频指代分割任务中，X2SAM在Ref-YT21数据集上得到了78.5 J&F，在Ref-DV17数据集上得到了79.0 J&F，卓越了此前最初的UniPixel-7B分歧7.5和2.6个百分点。在视频推理分割方面，X2SAM在ReVOS数据集上得到了69.9 J&F，比HyperSeg跳动14.2个百分点，致使卓越了有益针对视频指代任务野心的ReferFormer-B专用模子。在视频接地对话生成任务上，X2SAM的mIoU为75.8，比VideoGLaMM跳动21.5个百分点，差距相称权臣。

在视觉接地分割任务上，X2SAM在图片端与专用图片模子X-SAM相称（COCO点请示AP 45.9，框请示AP 48.5），在视频端则大幅卓越了SAM2-H。具体来说，在YT-VIS19数据集的框请示建立下，X2SAM得到了74.4 AP，而SAM2-H仅为54.0 AP；在更复杂的VIPSeg数据集上，X2SAM得到了57.8 AP，SAM2-H仅为40.4 AP。这一差距充分证明，迎面对需要语言露出和时候跟踪双重智商的任务时，义结金兰依赖初级视觉请示的SAM2存在昭着短板。

在域外泛化测试（即用从未见过的数据集测试）中，X2SAM在gRefCOCO（包含多宗旨和无宗旨抒发式的泛化指代分割数据集）上卓越了专用的非MLLM模子ReLA，也卓越了PSALM和X-SAM等MLLM通用模子。在ADE20K的怒放词汇分割测试中，X2SAM得到了31.2 PQ、38.2 mIoU和20.2 mAP，全面卓越ODISE和X-SAM等对比要领。

此外，X2SAM还保留了出色的图片和视频对话智商，在MMBench、SEED-Bench等图片对话基准测试上得到了83.5和76.0的得益，在VideoMME、MVBench、MLVU、LongVideoBench等视频对话基准测试上也阐扬优异，卓越了Video-LLaVA、VideoChat2、VILA-1.5等专注对话的模子。这证明在为模子加入紧密分割智商时，团队有用地注意了模子的通用对话智商退化。

---

六、X2SAM现在还有哪些不及和将来标的？

任何参议都有其领域，X2SAM也不例外。参议团队在论文中坦诚地指出了三点局限性。

第一，跨模态的融合磨练仍然计较支出较大，尤其是视频数据的内存占用问题，即便有了现存的优化战略，磨练本钱依然不低，这关于资源有限的参议团队来说是一个门槛。

第二，固定大小的FIFO记挂库关于超长视频来说可智商不从心。若是宗旨在视频中经验了永劫候讳饰、剧烈外不雅变化，或者消失很久后又从新出现，有限容量的记挂模块可能无法有用保存关节的历史信息，导致跟踪失败。

第三，行为一个通用模子，X2SAM在某些高度有益化的单一任务上仍然过期于专用模子——比如专注于视频对象分割的SAM2-H，在YT-VOS19上的J&F为88.8，而X2SAM为74.0。这是通用性与专科性之间不朽的衡量采选。

参议团队默示，将来责任将探索更高效的磨练要领、更轻量的主干蚁集，以及自妥当的永劫程记挂机制，以期在可膨大性和鲁棒性上进一步进步。

---

归根结底，X2SAM这项责任的中枢价值在于证明了一件事：让AI同期看懂图片和视频、同期采纳语言和视觉请示、同期处理从通用分类到复杂推理的各式任务，并不需要七八套寂然的系统强迫在沿途——一个融合的框架，加上全心野心的记挂机制和磨练战略，就不错作念到。这种"大一统"的想路，不仅在工程上更整洁，在性能上也莫得付出昭着的代价，在许多任务上反而因为跨任务的常识分享而有所增益。

对普通用户而言，这意味着将来的AI视觉助手可能会变得愈加万能——你不错径直对着监控视频说"帮我跟踪阿谁红色背包的东谈主"，或者对着一段家庭视频说"把两个孩子分歧圈出来并标注他们的露出轨迹"，系统会当然地露出你的意图并生成精确的时候连贯蒙版，而不需要你先选模子、再选任务、再分歧操作。

诚然，从参议原型到日常可用的产物，还有相称长的路要走，但X2SAM的出现标明这条路的标的是明晰的。有风趣风趣深化了解时刻细节的读者，不错通过arXiv编号2605.00891查阅完竣论文，代码也已在GitHub上以wanghao9610/X2SAM的地址开源。

---

Q&A

Q1：X2SAM和SAM2有什么区别，为什么不径直用SAM2？

A：SAM2是一个优秀的分割用具，但它只意志鼠标点击和方框这类"物理请示"，透顶不睬解语言。你没法跟SAM2说"圈出视频里一直在白墙旁走动的东谈主"，它听不懂。X2SAM在SAM2的基础上加入了大语言模子，能露出复杂的笔墨描绘致使需要推理的指示，同期通过蒙版记挂模块保握视频中的时候连贯性。两者的适用场景不同，SAM2更像一把精确的剪刀，X2SAM更像一个能听懂指示的智能编订助手。

Q2：X2SAM的蒙版记挂模块是奈何保证视频中宗旨不丢失的？

A：蒙版记挂模块真贵着一个"滚动记挂库"，保存最近若干帧（默许6帧）的视觉特征和蒙版信息。处理每一帧时，系统会先记忆这些历史纪录，把历史信息与刻下帧会通，生成时候上连贯的特征，再据此生成蒙版。处理完后，刻下帧的信息又被存入记挂库，最旧的帧被自动丢弃。这种"上前看历史、向后传景况"的机制有用幸免了逐帧寂然处理时产生的蒙版抖动和宗旨丢失问题。

Q3：X2SAM需要若干GPU智力磨练，普通参议团队能用吗？

A：X2SAM的完竣磨练在32块NVIDIA H800 GPU上进行，融合鸠合磨练阶段想到约滥用3300 GPU小时。这对大多数高校实验室来说确乎是不小的门槛。不外参议团队如故开源了代码和模子权重KPL投注官网，普通参议东谈主员不错径直使用预磨练好的模子进行推理或在一丝据集上微调，不需要重新复现完竣磨练经过。

pg娱乐麻将胡了中国最新版APP下载

KPL投注官网中山大学鸠合鹏城实验室、好意思团推出X2SAM

热点资讯

推荐资讯

KPL投注官网 中山大学鸠合鹏城实验室、好意思团推出X2SAM

热点资讯

推荐资讯

KPL投注官网中山大学鸠合鹏城实验室、好意思团推出X2SAM