标签:红杉中国

红杉中国推出全新AI基准测试xbench,打造双轨评估体系与长青评估机制

整理后的 #(由多段落组成) 5月26日,红杉中国正式推出了全新的AI基准测试工具——xbench,并同步发布了相关论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。这一开创性的基准测试是由一家投资机构主导发起的,联合了国内外多家顶尖高校及研究机构,汇聚了数十位博士研究生的智慧与努力。 xbench作为首个采用双轨评估体系和长青评估机制的AI基准测试工具,旨在全面衡量和推动AI系统的能力提升。它不仅能够探索AI技术的上限与边界,还特别关注AI系统在实际应用场...