标签:语义解析

PAM模型助力图像分割与视频理解,多模态AI实现语义解析新突破,3B参数模型刷新视觉理解SOTA,图像视频全面适配

整理后文章 一款能够同时完成分割、识别和解说任务的全能模型来了!这款名为PAM(Perceive Anything Model)的模型,由香港中文大学MMLab、香港理工大学、北京大学等机构联合开发并开源。它不仅支持图像和视频处理,还能同时输出文本和Mask结果,真正实现了一次交互解决多种需求。 PAM在继承了SAM2强大分割能力的基础上,进一步扩展了语义信息输出功能。为了训练这一高效模型,研究团队构建了一个包含150万张图像区域和60万段视频区域标注的超大规模高质量数据集。实验结果显示,PAM仅用3B参数规模,便在多个图像和视频理...