标签：语义解析

PAM模型助力图像分割与视频理解，多模态AI实现语义解析新突破，3B参数模型刷新视觉理解SOTA，图像视频全面适配

整理后文章一款能够同时完成分割、识别和解说任务的全能模型来了！这款名为PAM（Perceive Anything Model）的模型，由香港中文大学MMLab、香港理工大学、北京大学等机构联合开发并开源。它不仅支持图像和视频处理，还能同时输出文本和Mask结果，真正实现了一次交互解决多种需求。 PAM在继承了SAM2强大分割能力的基础上，进一步扩展了语义信息输出功能。为了训练这一高效模型，研究团队构建了一个包含150万张图像区域和60万段视频区域标注的超大规模高质量数据集。实验结果显示，PAM仅用3B参数规模，便在多个图像和视频理...

来源：

量子位【阅读原文】
Tags：PAM模型图像分割多模态AI 视频理解语义解析

1年前 (2025)