这项由中山大学、鹏城实验室与好意思团鸠合开展的参议,以预印本时局于2026年4月27日发布在arXiv平台,编号为arXiv:2605.00891v1。感风趣风趣的读者可通过该编号检索完竣论文。 手机里的相机每天拍下无数张像片和视频,东谈主们早已习尚了用AI来识别像片里的猫咪、帮像片中的东谈主物换个布景,或者给视频打上自动字幕。关联词,当你委果去看这些AI的"眼睛"时,会发现一件有些奇怪的事——大多数横暴的AI要么只会"看图言语",要么只会"圈出宗旨",却很少有谁能同期把这两件事作念得既好又快...