标签：多轮对话测试

医疗大模型能力评估：HealthBench开源基准助力多轮对话测试与GPT-4.1 nano等AI系统在医疗健康领域的进步

随着人工智能技术的飞速发展，医疗领域的应用也逐渐成为关注焦点。近日，OpenAI 推出了一款专为医疗大模型设计的测试评估集——HealthBench，并将其开源。这一举措旨在更全面、准确地衡量 AI 系统在医疗健康领域的能力。 HealthBench 的核心特点在于其由全球范围内的专业医生团队精心打造。具体来说，来自 60 个国家和地区的 262 名医生共同参与了测试集的设计工作，生成了 5000 段高质量的核心测试对话。这些对话不仅涵盖了复杂的医疗场景，还确保了测试集的真实性和多样性。与传统狭窄基准不同，HealthBench 提供了更加开放...

来源：

IT之家【阅读原文】
Tags：AI系统 GPT-4.1 nano HealthBench 医疗大模型多轮对话测试

1年前 (2025)