标签：大型语言模型

编程竞赛新标杆：谢赛宁带领华人团队打造每日更新题目的LiveCodeBench Pro，杜绝刷题，大型语言模型全员挑战零分记录

大模型在编程竞赛基准测试中全军覆没，所有参赛模型均获得0分。这一结果由谢赛宁领衔的华人团队发布，其最新推出的LiveCodeBench Pro基准测试引发了广泛关注。该基准测试每日更新题目，旨在防止大型语言模型（LLMs）通过“背题”来提高成绩。 LiveCodeBench Pro包含来自国际信息学奥林匹克竞赛（IOI）、Codeforces和国际大学生程序设计竞赛（ICPC）的高难度编程问题。这些题目覆盖了知识密集型、逻辑密集型和观察密集型三大类，并分为简单、中等和困难三个难度级别。为了确保评估的真实性和挑战性，团队每天都会更新题库，以...

来源：

量子位【阅读原文】
Tags：LiveCodeBench Pro 华人团队大型语言模型编程竞赛谢赛宁

1年前 (2025)

西北大学与谷歌联合推出新框架：结合贝叶斯自适应强化学习与大型语言模型，全面提升数学推理能力及反思机制

段落一近期，西北大学与谷歌DeepMind团队合作提出了一种全新的框架——贝叶斯自适应强化学习（BARL），首次深入解析了大型语言模型（LLM）在推理过程中的反思行为。这一研究不仅回答了“为什么、如何以及何时需要反思”的问题，还为数学推理能力的全面提升提供了新的解决方案。段落二研究人员通过对比传统强化学习（RL）和BARL的效果发现，在完成特定任务时，例如“要求模型在三步内输出三个连续相同字符”，传统RL方法往往固守单一策略，而BARL则能够灵活排除无效假设并切换新策略。此外，在数学推理任务中，BARL展现出更高...

来源：

量子位【阅读原文】
Tags：反思机制大型语言模型强化学习数学推理贝叶斯自适应强化学习

1年前 (2025)

Claude AI 网页版升级：支持MCP协议定制链接与谷歌服务集成，赋能大型语言模型应用扩展

随着科技的快速发展，AI领域的创新层出不穷。近日，知名科技媒体 testingcatalog 报道称，Anthropic 公司旗下的 Claude 网页应用正计划通过 MCP（Model Context Protocol）扩展其定制集成支持。这一突破将为用户带来更多可能性，并进一步优化与谷歌服务的交互体验。 MCP 是 Anthropic 在 2024 年 11 月推出的一项开放标准，全称为“模型上下文协议”。它旨在统一大型语言模型（LLM）与外部数据源及工具之间的通信方式。换句话说，MCP 就像 AI 应用中的“USB-C 接口”，通过标准化的方式实现 AI 助手与各种系统、数据或工具的高...

来源：

IT之家【阅读原文】
Tags：AI集成 Claude MCP协议大型语言模型谷歌服务

1年前 (2025)

人工智能领域战略调整：OpenAI收购Context.ai团队，大型语言模型再迎新变革

整理后的 #（由多段落组成）近日，位于英国伦敦的一家人工智能初创企业Context.ai正式宣布，其团队将并入全球知名的人工智能研究实验室OpenAI。这一消息引发了业界广泛关注。Context.ai成立于2023年，创始人为谷歌前员工亨利·斯科特-格林（Henry Scott-Green）和亚历克斯·甘布尔（Alex Gamble），分别担任首席执行官和首席技术官。在过去两年的发展历程中，Context.ai专注于为大型语言模型开发评估与分析系统，并在这一领域取得了显著进展。然而，公司也曾经历过多次战略调整，以适应快速变化的市场需求和技术环境。如...

来源：

界面新闻【阅读原文】
Tags：Context.ai OpenAI 人工智能大型语言模型战略调整

1年前 (2025)

利用开源框架BioChatter和大型语言模型，无缝集成知识图谱降低生物医学研究中的LLM使用门槛

大型语言模型在生物医学研究中的新突破：BioChatter开源框架大型语言模型（LLMs）已经显著改变了人们的工作方式，从创作、编程到改进搜索引擎等。然而，LLMs 在透明度、可重复性和定制化方面的不足仍然限制了其在生物医学研究中的广泛应用。对生物医学研究人员来说，针对特定研究问题优化 LLMs 是一项艰巨的任务，因为这需要编程技能和机器学习专业知识。这些障碍减少了 LLMs 在许多研究任务中的应用。为了克服这些限制，海德堡大学和欧洲生物信息研究所（EMBL-EBI）等机构的研究人员在《Nature Biotechnology》杂志上发...

来源：

机器之心【阅读原文】
Tags：BioChatter 大型语言模型开源框架提示工程生物医学研究

1年前 (2025)

Mistral Small 3与Tülu 3 405B：探索更小、更便宜的大型语言模型及量化技术在后训练方法中的应用进展

Mistral AI 和 Allen 人工智能研究所发布最新大型语言模型 1月31日，站长之家（ChinaZ.com）报道，Mistral AI 和 Allen 人工智能研究所（简称 Ai2）分别发布了最新的大型语言模型（LLM）。Mistral 推出的 Mistral Small 3 模型参数量为240亿，远少于市场上的其他先进 LLM。这使得它在启用量化后可以在某些 MacBook 上运行。量化技术旨在降低硬件资源需求的同时，减少输出质量的损失。 Mistral 在内部评估中将 Mistral Small 3 与 Meta Platforms Inc. 的开源 LLM Llama 3.3 70B Instruct 进行了对比。尽管 Mistral Small 3...

来源：

站长之家【阅读原文】
Tags：Mistral Small 3 Tülu 3 405B 后训练方法大型语言模型量化技术

2年前 (2025)

深入解析大型语言模型扩展范式：思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用

一、Jason Wei 的背景与贡献关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家，经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者，他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念，并共同领导了指令微调的早期工作。2023 年初，他加入了 OpenAI，参与了 ChatGPT 和其他重大项目。二、演讲概要去年 11 月 20 日，Jason Wei 在宾夕法尼亚大学计算机与信息科学...

来源：

机器之心【阅读原文】
Tags：- 下一词预测 - 扩展范式大型语言模型强化学习思维链

2年前 (2025)

谷歌人工智能研究科学家菲利克斯·希尔离世，生前两月曾透露大型语言模型研究使其深受社交焦虑和心理健康问题困扰

告别菲利克斯・希尔：人工智能社区的共同哀思本周四，人工智能社区以各自的方式向一位杰出的科学家告别——菲利克斯・希尔（Felix Hill），他是 Google DeepMind 的研究科学家，于 2024 年 12 月 5 日去世。自 2023 年初以来，他一直在与严重的精神疾病作斗争。在离世之前，菲利克斯已在 Google DeepMind 工作了近 9 年。纽约大学计算机科学和数据科学教授、生物技术公司 Prescient Design 联合创始人 Kyunghyun Cho 表示，他至今仍心痛不已。Kyunghyun Cho 回忆起 2014 年在蒙特利尔做博士后时，指导老师是 Yoshua Bengio...

来源：

机器之心【阅读原文】
Tags：人工智能研究大型语言模型心理健康社交焦虑菲利克斯・希尔

2年前 (2025)

人工智能与意图经济：剑桥大学研究揭示新趋势

根据剑桥大学研究人员的最新发现，人工智能（AI）工具正逐渐被用于操纵在线用户的决策，影响范围涵盖购物选择、投票对象等多个方面。这种操纵基于新兴的“意图经济”，AI 助手在其中不仅理解、预测人类意图，甚至能够操纵这些意图，并将相关信息出售给相关企业以牟利。意图经济取代注意力经济剑桥莱弗休姆智能未来中心（LCFI）的研究人员认为，“意图经济”将取代传统的“注意力经济”。在信息爆炸的时代，注意力经济是指通过争夺用户的注意力来实现商业利益的一种模式。企业和平台通过提供引人入胜的和个性化推荐，吸引用户花...

来源：

IT之家【阅读原文】
Tags：WordPress 人工智能大型语言模型用户隐私

2年前 (2024)

26年前的Windows 98古董电脑成功运行大型语言模型：EXO Labs推动人工智能普及，搭载奔腾II处理器和128MB内存，再现BitNet时代辉煌

运行 Windows 98 的奔腾 II 电脑成功运行大型语言模型近日，一个名为 EXO Labs 的组织在社交媒体上发布了一段视频，展示了在一台拥有 26 年历史的奔腾 II 电脑（配备 128MB 内存）上成功运行大型语言模型（LLM）的过程。这台古老的 350MHz Elonex 奔腾 II 电脑运行了基于 Andrej Karpathy 开发的 Llama2.c 定制纯 C 推理引擎，并生成了一个关于“Sleepy Joe”的故事。令人惊讶的是，整个过程非常流畅，故事生成速度也相当可观。 EXO Labs 的愿景与使命 EXO Labs 由牛津大学的研究人员和工程师组成，致力于“普及人工智能”。...

来源：

IT之家【阅读原文】
Tags：BitNet EXO Labs Windows 98 人工智能普及大型语言模型

2年前 (2024)

12 3…5