随着个性化图像生成技术的快速发展,一个亟待解决的问题浮出水面:如何统一标准来评判生成图片的质量和人类喜好。为了解决这个问题,清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中国科学院和旷视科技的研究团队共同推出了一项创新基准——DreamBench++。
DreamBench++借助GPT-4o模型,通过多模态输入和精心设计的prompt,使模型能够进行与人类偏好相一致的自动化图像评估。在评估过程中,研究团队采用了7位专业标注员的评分作为参照,对比了7种不同的图像生成方法。实验结果显示,DreamBench++的评估与人类评价高度吻合。
DreamBench++的核心技术创新在于两个方面:一是引入GPT-4o实现深度对齐的人类偏好自动化评估;二是构建了一个更加全面和多样化的数据集。在评估过程中,研究人员制定了详细的评分规则,涵盖形状、颜色、纹理和面部细节等多个方面,确保了评估的准确性和一致性。
为了创建这个公平无偏的数据集,团队选择了200个主题关键词,包括物体、活物和风格化图片,从多个来源收集并筛选高清图片。然后,他们使用这些关键词生成不同复杂度的prompt,引导GPT-4o进行生成任务。
实验结果显示,GPT-4o在图像相似性和文本遵循方面的评分更接近人类打分,显示出其在综合评估多个视觉元素方面的优势。DreamBench++与人类评估的一致性显著高于现有的DINO和CLIP指标,表明其在评估个性化图像生成效果方面的优越性。
此外,DreamBench++的可视化展示还揭示了在保持主体情况和遵循文本指令方面与人类评估的高度一致性。其全面的数据集暴露了现有方法的新问题,尤其是对于finetune-based方法和处理非自然或复杂图像时的表现。
目前,DreamBench++的相关论文和数据集已公开,为研究者提供了深入了解和进一步研究的资源。
本文来源: 量子位【阅读原文】