标签：华科大

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

（由多段落组成）：近年来，随着多模态大模型的快速发展，其应用已从早期的文生图逐步拓展至像素级任务，如图像分割与细粒度视觉理解。然而，尽管像OMG-LLaVA和LISA（CVPR 2024）等代表性工作取得了显著进展，它们在实际应用中仍面临两大核心挑战：一是分割精度不足，尤其在复杂场景下难以准确识别目标；二是存在“理解幻觉”问题，即模型生成的描述与图像不符。这些问题的根本原因在于现有架构对物体属性的理解不够深入，且缺乏对局部区域与语义描述之间的精准对齐机制。为突破这一瓶颈，华中科技大学白翔团队联合金山办...

来源：

量子位【阅读原文】 Tags：华科大

10个月前