标签:华科大
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
(由多段落组成): 近年来,随着多模态大模型的快速发展,其应用已从早期的文生图逐步拓展至像素级任务,如图像分割与细粒度视觉理解。然而,尽管像OMG-LLaVA和LISA(CVPR 2024)等代表性工作取得了显著进展,它们在实际应用中仍面临两大核心挑战:一是分割精度不足,尤其在复杂场景下难以准确识别目标;二是存在“理解幻觉”问题,即模型生成的描述与图像不符。这些问题的根本原因在于现有架构对物体属性的理解不够深入,且缺乏对局部区域与语义描述之间的精准对齐机制。 为突破这一瓶颈,华中科技大学白翔团队联合金山办...