标签：LLM

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

（由多段落组成）：近年来，大语言模型（LLM）在智能体系统中的应用不断深化，尤其是在多智能体协作场景中展现出巨大潜力。从医疗诊断到代码生成、科研辅助乃至具身智能领域，多个LLM协同工作的模式已被证明能显著超越单一智能体的表现。然而，尽管多智能体系统的性能优势明显，现有的强化学习训练框架大多仍局限于单智能体优化，缺乏对“群体行为”进行联合进化的有效机制。这一瓶颈严重制约了多智能体系统在复杂任务中的进一步突破。为解决这一关键挑战，来自加州大学圣地亚哥分校（UCSD）与英特尔的研究团队提出了一种...

来源：

量子位【阅读原文】 Tags：LLM 强化学习

7个月前

微软最新研究：BitNet v2助力LLM实现原生4bit激活值量化，充分挖掘新一代GPU在4bit计算领域的性能潜力

微软在LLM（大语言模型）领域的研究再次取得突破，发布了全新的BitNet v2框架。这一框架实现了1 bit LLM的原生4 bit激活值量化，能够充分利用新一代GPU（如GB200）对4 bit计算的支持能力，从而显著减少内存带宽占用并提升计算效率。此前，微软曾推出BitNet b1.58框架，将LLM的权重量化至1.58-bit，大幅降低了推理延迟和内存占用等成本。然而，BitNet b1.58的激活值仍为8-bit，无法充分发挥新一代硬件的4 bit计算能力，导致计算环节存在效率瓶颈。此外，研究还发现注意力层和前馈网络层的输入激活值分布接近高斯分布，相对...

来源：

量子位【阅读原文】
Tags：4 bit计算 BitNet v2 GPU LLM 微软

1年前 (2025)

陶哲轩亲测点赞o3-mini：利用三角形移除引理和极值图论，专家级证明带来完美答案

陶哲轩亲测点赞o3-mini：专家级证明，完美解答极值图论难题近日，著名数学家陶哲轩对AI工具o3-mini进行了亲测，并对其在解决复杂数学问题上的表现给予了高度评价。通过一系列互动，陶哲轩不仅验证了o3-mini的推理能力，还展示了其在处理极值图论中的三角形移除引理（Triangle Removal Lemma）方面的卓越性能。 # 三角形移除引理及其应用陶哲轩首先提出了一个经典问题：如何从Ruzsa和Szemeredi提出的三角形移除引理中推导出诱导匹配并集的结果。该引理指出，对于任意η > 0，存在c > 0，使得对于足够大的n个顶点的...

来源：

量子位【阅读原文】 Tags：LLM o3-mini 极值图论

1年前 (2025)

AI时代新风口！吴恩达亲授智能体四大设计模式

吴恩达，知名AI专家，近期在其博客中强调了AI智能体在AI领域的重要性，指出它们可能超越基础模型成为推动行业大规模进步的关键。他提出了智能体的四大设计模式：Reflection（反思）、Tool use（工具使用）、Planning（规划）和Multi-agent collaboration（多智能体协同）。吴恩达认为，这些模式将帮助智能体更好地模拟人类工作流程，提高效率。 1. Reflection（反思）模式允许智能体根据反馈自我调整，提高输出质量，如在编程任务中，智能体可以基于反馈反思并改进其代码。 2. Tool use（工具使用）涉及智能体调用外部工具...

来源：

新智元公众号【阅读原文】
Tags：AI智能体 LLM Multi-agent collaboration Planning Reflection Tool use 人工智能进步吴恩达

2年前 (2024)

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

Claude3，全球领先的通用人工智能模型，再次引起轰动，尤其在化学任务上展现出超越GPT-4的强大能力。OSU团队创建的SMolInstruct数据集针对化学任务进行了指令微调，使得大型语言模型（LLM）能够胜任这些专业任务。通过对Galactica、Llama2、Code Llama和Mistral等四个开源LLM的微调，诞生了专门的LlaSMol模型，其在化学任务上的表现远超未微调的LLM，甚至在某些方面接近最先进的任务特定模型。在SMolInstruct基准测试中，尽管Claude3Opus不敌LlaSMol，但仍然在多数任务上优于GPT-4，证明了其在专业领域的学习优势。随着LLM的...

来源：

新智元公众号【阅读原文】
Tags：Claude3 GPT-4 LLM 化学任务指令微调

2年前 (2024)

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

ChatGPT API 的系统提示功能让开发者能更精细地控制语言模型的输出，比如设置特殊规则和限制。与用户提示相比，系统提示能产生更有趣的效果，如“给小费”实验。数据科学家 Max Woolf 发现，给 ChatGPT 提供小费后，它的响应质量似乎有所提升，能按照要求生成更多表情符号。然而，关于小费是否真的改善输出质量，存在争议，因为文本生成的主观性使得验证困难。 Max Woolf 使用统计方法探讨了这一问题，提出了“高尔夫生成”测试，即指定生成固定长度的文本，以观察模型的适应性。实验结果显示，添加字符长度限制后，ChatGPT 能...

来源：

机器之心公众号【阅读原文】
Tags：ChatGPT LLM 小费生成长度系统提示

2年前 (2024)

别跟马斯克扯头花了！“叛徒”Anthropic解决了困扰OpenAI的难题

Anthropic挑战大模型市场，田忌赛马式定价策略引领TO B新趋势摘要： Anthropic携Claude 3系列在LLM竞赛中崭露头角，与OpenAI形成竞争态势。Anthropic采取“田忌赛马”式定价策略，针对企业市场，推出不同性能的Opus、Sonnet和Haiku模型。其中，Opus在企业服务领域表现出色，GPQA准确率高达60%，超越GPT-4。定价上，Anthropic高低搭配，以Sonnet的高性价比吸引企业客户。与OpenAI相比， Anthropic在视觉能力、安全性和长文本处理上有优势。目前， Anthropic已获得科技巨头如Gitlab和Salesforce等企业的青睐，其TO B策略日渐清...

来源：

iFeng科技【阅读原文】
Tags：Anthropic Claude 3 LLM 大模型定价策略

2年前 (2024)

全球最强大模型易主！GPT-4被超越：Claude 3理解能力已接近人类有明确伦理底线

快科技报道，Anthropic公司近期推出了Claude 3系列大模型，一举超越GPT-4，成为LLM领域的全新标杆。Claude 3家族包含Haiku、Sonnet和Opus三个版本，分别针对不同复杂度的任务。其中，Claude 3 Opus以其接近人类理解力的特点尤为突出，且在多项高难度考试中展现出卓越智商。 Claude 3 Sonnet作为中杯型号，以高性价比和规模化应用为亮点，适合数据处理和中等复杂工作流。而Haiku则以快速和经济著称，适用于实时用户交互和简化基本工作流程。当问及Sonnet相较于GPT-4的优势时，它强调了自身深入的专业知识、个性化互动和道德...

来源：

快科技【阅读原文】
Tags：Anthropic Claude 3 GPT-4 LLM OpenAI

2年前 (2024)

下一个OpenAI来了？Mistral超大杯模型直逼GPT-4，93年创始人6人公司被微软认领

Mistral AI，被誉为“下一个OpenAI”，发布了其旗舰模型Mistral Large，该模型在多语言任务处理上表现出色，直逼GPT-4。尽管未开源，Mistral已引起广泛关注，特别是微软已将其纳入麾下。由年轻创始人Arthur Mensch领导的团队，仅用4周时间、6人阵容、7页PPT便筹集到8亿欧元资金，打造了这家与OpenAI和Anthropic抗衡的公司。Mistral Large擅长逻辑推理，能处理多种语言，包括代码生成，且在多个基准测试中超越 Anthropic的Claude2和谷歌的Gemini Pro。近期，Mistral修改网站内容引发开源社区担忧，但CEO确认将继续秉持开源理...

来源：

新智元公众号【阅读原文】
Tags：GPT-4 LLM Microsoft Mistral AI OpenAI

2年前 (2024)