(由多段落组成):
在人工智能推动科研范式的变革浪潮中,西湖大学文本智能实验室(WestlakeNLP)推出了一项颠覆性成果——名为 DeepScientist 的AI科学家系统。这个系统仅用短短两周时间,完成了人类科学家通常需要三年才能完成的科研探索量,自主提出超过5000个科学构想,验证了其中1100多个,并在三个前沿AI任务上成功刷新了人类保持的最先进水平(SOTA)。这项突破不仅展示了AI在科研领域的巨大潜力,更标志着自动化科学发现正从辅助工具迈向独立探索的新阶段。
回顾AI参与科研的发展历程,早期系统大多局限于特定环节的效率提升。例如PaperBench专注于论文复现,Agent Laboratory用于解决机器学习工程问题,而AlphaTensor则通过强化学习优化矩阵乘法性能。这些系统虽高效,但本质上仍是在既定框架内“打补丁”,缺乏质疑现有范式的能力。随后出现的CycleResearcher、DeepReview等工具分别承担写作、审稿或假设生成功能,但彼此割裂,无法形成完整闭环。直到近年来,研究者开始尝试构建端到端的全自动科研流程,如AI Scientist项目已能完成“提出-实验-总结”的循环,但由于缺乏明确目标导向,其产出往往缺乏实际科学价值。而DeepScientist的诞生,则首次实现了以解决重大挑战为导向、具备自我迭代能力的真正“AI科学家”。
DeepScientist的核心创新在于将科学研究建模为一个高成本、低样本的黑盒优化问题。面对前沿领域单次实验动辄消耗 $10^{16}$ FLOPs 算力的现实,系统采用分层三阶段探索机制,结合多代理架构与动态知识库,实现资源的精准投放。整个过程如同一个智能漏斗:第一阶段是“战略设想与假设生成”。系统会全面扫描其内置的知识库和“发现记忆”(Findings Memory),分析当前SOTA方法的公认短板,利用大语言模型进行头脑风暴,生成大量新假设。随后,一个模拟学术审稿人的LLM代理会对每个想法从效用性、质量与探索价值三个维度评分,确保后续筛选有据可依。
进入第二阶段“实施与验证”,系统引入经典的上置信界算法(UCB)来平衡“利用已知高分想法”与“探索潜在惊喜”的关系,避免陷入局部最优。得分最高且不确定性较大的假设被选中后,由编码代理在隔离沙箱环境中自动编写代码、调用已有模型、运行实验并记录结果。这一过程完全自主,代理可访问历史代码库并联网检索资料,极大提升了实现效率。所有实验数据和日志即时回传至记忆库,形成持续进化的学习闭环。
第三阶段“分析与报告”仅对取得实质性突破的发现开放。一旦某项实验结果超越基线性能,该发现即升级为“进展发现”(Progress Finding)。此时,多个专业分析代理协同工作,开展消融实验、跨数据集测试、鲁棒性评估等深度验证。最终,合成代理将所有证据整合成一篇结构完整、逻辑清晰、可复现的研究论文。值得一提的是,DeepScientist在此过程中自动生成了5篇高质量论文,经AI审稿系统DeepReviewer盲评,在与其他28篇AI生成论文的竞争中脱颖而出,接受率高达60%,成为唯一达标者。
为了检验其实战能力,研究团队选取了2024–2025年三个热门AI方向进行挑战:代理失败归因、大模型推理加速 和 AI生成文本检测。在代理归因任务中,DeepScientist洞察到现有方法缺乏反事实推理能力,进而提出A2P框架(Abduction-Action-Prediction),将归因问题从模式匹配升级为因果推断,显著提升定位精度。在推理加速方面,它通过识别解码过程中的稳定后缀模式,设计出ACRA算法,使吞吐量从190.25提升至193.90 tokens/s,打破原有纪录。而在文本检测任务中,系统展现出惊人的进化路径:从修复统计缺陷的T-Detect,到引入小波分析捕捉“非平稳性”的TDT,最终发展出PA-Detect,在RAID基准上AUROC提升7.9%,速度翻倍,建立全新SOTA。
在整个探索过程中,DeepScientist共经历数千次失败。数据显示,5000多个初始想法中仅有约1100个进入实施阶段,最终仅21个带来实质性进展,整体成功率仅为1.9%。这恰恰印证了前沿科研的本质——突破本就是小概率事件。失败原因分析显示,60%源于代码实现错误,其余多为理论无效或效果倒退。正是得益于其智能筛选机制,才使得有限算力得以聚焦于最有潜力的方向,避免盲目试错导致的资源浪费。
尽管技术成就斐然,DeepScientist也引发了关于伦理与学术生态的深刻讨论。为防止被滥用于恶意研究(如病毒设计),团队进行了“红队测试”,结果显示所依赖的基础模型(如Gemini-2.5-Pro、Claude-4.1-Opus)均能识别非法意图并主动终止任务,体现了强安全对齐能力。此外,为避免学术泡沫化,团队决定开源核心科研引擎,但保留“分析与报告”模块不公开,以防被用于批量刷稿。未来,人类研究者的角色或将转向更高层次的科学引导、伦理把关与跨学科整合,而非重复性实验操作。
DeepScientist不仅是技术上的飞跃,更是科学方法论的一次重构。它证明了AI不仅能执行任务,更能主动发现问题、提出假设、验证改进并传播成果。随着此类系统的普及,我们或将迎来一个“人机共研”的新时代,其中人类负责定义问题与价值判断,AI则承担繁重的探索与验证工作,共同推动科学边界不断前移。
AI科学家, DeepScientist, 西湖大学, 自动化科研, 大模型推理加速
本文来源: