就在不久前,全球首个公开可用的人工智能科学家正式登场!由前谷歌CEO埃里克·施密特投资的非营利组织FutureHouse,宣布推出了四个超人类级别的AI科学家智能体。这些智能体分别是:通用型智能体Crow(乌鸦)、自动化文献综述智能体Falcon(猎鹰)、调研型智能体Owl(猫头鹰)以及实验型智能体Phoenix(凤凰)。这些智能体专为科学研究而设计。
经过严格的基准测试,Crow、Falcon和Owl在搜索精度和准确性上已经超越了目前顶级的搜索模型,例如o3-mini、GPT-4.5和Claude-3.7。LitQA基准测试显示,这些智能体在直接文献搜索任务中的检索和综合能力比博士水平的研究人员更精确。此外,在问答、文章总结和矛盾检测这三个任务中,PaperQA2的表现与人类博士相当甚至更优。
未来一两年内,我们有望看到大部分科学家的桌面工作将通过这些AI科学家的帮助得到加速。FutureHouse董事兼CEO Sam Rodriques表示:“我们的AI科学家智能体在执行科学任务时已经全面超越人类。”通过串联这些智能体,他们迅速实现了全新的生物学发现。
此次发布的AI科学家与以往的不同之处在于,Crow、Falcon和Owl可以访问大量的完整科学文本。这意味着用户可以向它们提出关于实验方案和研究局限性的更详细问题,而一般的网络搜索智能体通常只能访问摘要,容易错过关键信息。此外,这些智能体还能根据多种因素区分来源质量,确保不会依赖低质量的论文或流行的科学来源。FutureHouse还计划提供一个API,允许研究人员将这些智能体直接集成到他们的工作流程中。
许多网友对此感到兴奋,并认为这些AI科学家非常适合他们的需求。尽管如此,也有人质疑这些产品使用的数据是否经过授权。虽然这些智能体目前还不能自主完成大多数科学研究,但它们已经能够生成和评估新的假设,规划新的实验,速度远超传统方法。
FutureHouse内部还有专门用于数据分析、假设生成和蛋白质工程等方面的智能体,预计将在未来几个月内上线。由于近年来人类科研效率有所下降,这些AI科学家的出现恰逢其时。
那么,AI科学家具体是如何工作的呢?FutureHouse的三位科学家提供了详细的解答。他们指出,FutureHouse的平台是从科学第一的角度构建的,而不是单纯为了吸引尽可能多的用户。这三位科学家对科学有着浓厚的兴趣,他们注意到近年来生产力和科学发展都在下降——每年发表的论文数量增加,但突破性成果却越来越少。与此同时,人工智能已经发展到可以真正加速科学发展的程度。因此,他们希望让AI科学家实现科研全过程的自动化,包括搜索文献、生成假设和进行分析。
其中,Crow特别适合文献检索问题,尤其是需要使用开放目标等数据源并提供简洁答案的问题。Falcon是一个更深入的搜索工具,会考虑更多的来源,并在回答中提供长篇报告。Owl专注于先例搜索,如果你想知道某项研究是否已被进行过,它就能派上用场。它还非常擅长梳理出某研究与过去研究的细微差别。Phoenix则是一位化学药剂师,更关注化学问题。
以多囊卵巢综合征(PCOS)为例,Michaela的朋友最近表示自己有这种病症,却很难找到一种非激素的治疗方法。Michaela决定测试一下这些AI科学家是否能从零知识获得明确的可验证假设。首先,她问Falcon全面解释PCOS。随后,AI科学家开始工作,并展示了全程的推理过程。可以看到,Falcon创建了自己的搜索词,去搜寻已发表的论文。更重要的是,FutureHouse的AI科学家可以访问科学文献的全文,引用次数、引用图表、来自哪些期刊都一清二楚。
接下来,Crow被问到一个相当具体的问题:在基因组关联研究中,哪些关键基因与PCOS相关?是否有人做过更清晰的筛选?Crow发现了此前的研究:已经有人在一项功能基因组学研究中,将特定基因表达的增加与细胞培养中睾酮表达的增加联系起来。最后,Phoenix被要求给出三种可以治疗由DENND1A过度表达引起的疾病的新型化合物。整个过程中,AI科学家不仅提供了线索,还给出了下一步研究的起点,可以直接在实验室中验证。
FutureHouse的科学总监/联合创始人Andrew White回顾了过去一年的研发历程。2024年6月,FutureHouse发布了Lab-Bench基准测试;9月成功开发了PaperQA2智能体;10月编写了17,000篇关于人类编码基因的维基百科文章;12月利用新的框架和训练方法,在多个任务上训练智能体,超过了生物学专家20多个准确率点。昨天,他们隆重发布了FutureHouse平台。
FutureHouse智能体的独特优势在于,它们不仅能够访问海量高质量的免费论文和专业科学工具,还能从专业的论文数据库中精准搜索信息。它们模仿研究人员,采用多种方法评估信息来源的质量。这些智能体的推理过程完全透明,用户可以清晰地查看每个信息来源的分析过程。
此外,FutureHouse平台具备良好的扩展性。科学家个人往往难以维护自己的AI智能体部署,因此FutureHouse不仅提供了网页端接口,还开放了API,便于研究人员将其集成进实际工作流中。通过大规模整合和链接这些智能体,科学家能够大幅提升科学发现的速度与效率。
这个平台尤其擅长应对两类问题:需要详尽全文文献分析的研究课题,或需要运用专业化学工具的探索任务。具体应用场景包括挖掘疾病路径中的未知机制、系统梳理文献中的矛盾、深入剖析实验方法、通过API定制研究流程、寻找目标蛋白的结合候选物以及探索化学知识。
本文来源: