在2024年的“双12”直播活动中,OpenAI继续展示了其在人工智能领域的创新实力。继前一天发布正式版o1之后,OpenAI在第二天的直播中推出了全新的强化微调(Reinforcement Fine-Tuning)功能。这一功能的核心在于,仅需少量的训练数据即可在特定领域内创建出高效的专家模型。
OpenAI的CEO奥特曼在直播中表示:“强化微调的效果非常出色,这是我今年最大的惊喜之一,我非常期待看到人们如何利用这项技术构建新的应用。”据他介绍,只需几十个示例数据,模型就能实现显著的性能提升。例如,经过强化微调的o1-mini模型得分提高了80%,甚至超过了正式版o1。
强化微调的应用与测试
目前,OpenAI已经启动了强化微调的研究计划,开发者可以通过申请获得强化微调API的alpha版本访问权限。在测试过程中,开发者可以使用几十到几千个高质量的数据点,模型将通过强化学习自主探索和学习如何处理复杂的任务。
直播中,OpenAI的研究员们与伯克利实验室的计算生物学家Justin Reese共同演示了强化微调在生物医学领域的应用。具体任务是根据病人的症状描述,找出相关的基因。例如,对于一位51岁的女性患者,她的眼距过宽、睑裂狭小、小颌畸形等症状,模型需要列出所有可能导致这些症状的基因,并解释其可能性。
评分模型与微调过程
在强化微调的过程中,评分模型(Grader)会对模型的回答进行评估。OpenAI提供了多种评分模型供选择,同时也支持用户自定义评分标准。整个微调过程非常简单,用户可以在网页界面上选择训练集和验证集,并根据需要配置超参数。在微调过程中,用户可以实时监控模型性能的变化趋势,测试完成后还可以查看模型对每条验证数据的输出结果。
未来展望与应用领域
目前,OpenAI内部已经在生物化学、安全、法律和医疗保健等多个领域成功应用了强化微调技术。预计在2025年初,这项技术将作为正式产品发布,企业、大学和研究院均可申请测试权限。尽管强化微调可能并不适用于所有任务,但在科学领域,它有望带来突破性的成果。
网友热议与未来猜测
直播结束后,许多网友对OpenAI的新技术表示了浓厚的兴趣。一些网友提出了关于GPT-4.5的疑问,而奥特曼在评论区的回应引发了更多猜测。虽然他没有直接确认,但也没有否认Sora的发布计划。这进一步增加了人们对OpenAI未来发布的期待。
本文来源:![](/zdy/infoa/img/www.qbitai.com.png)