标签：大语言模型

OpenAI-o1思考替代法热度攀升！焦剑涛高徒一作提出思考偏好优化，利用大语言模型如Llama 3 8B Instruct与AlpacaEval，拓展推理任务边界——天浩吴的创新研究

OpenAI-o1思考替代法引发关注，华人学者提出思考偏好优化方法近期，一项新的研究引起了广泛关注，该研究提出了一种名为“思考偏好优化”（Thought Preference Optimization, TPO）的方法，旨在使大型语言模型（LLM）能够根据任务的复杂度进行不同程度的“思考”，从而提高其输出质量。这一方法不仅适用于逻辑和数学推理任务，还能应用于一般的问答场景。研究背景与意义这项研究由华人学者Tianhao Wu及其导师焦剑涛等人共同完成。焦剑涛曾是2011年清华大学特等奖学金获得者。研究团队提出了一种新的训练方法，通过在模型中...

来源：

量子位【阅读原文】
Tags：AlpacaEval Llama 3 8B Instruct Tianhao Wu 大语言模型思考偏好优化

2年前 (2024)

西湖大学推出「AI科学家」Nova大模型，大幅提升科研效率与跨学科创新能力，效果超越SOTA竞品2.5倍

科学创新与AI的碰撞伟大的科学研究往往源于一个小小的灵感或创意。长期以来，科学创新与研究能力被认为是人类在人工智能时代中保持的独特优势。然而，西湖大学深度学习实验室的一篇论文在科学界引起了巨大反响。该论文介绍了一种全新的方法——利用大型语言模型来生成大量具有突破性的科学构想。只需一篇前沿的学术文章作为起点，该模型就能激发出数百个有创意且高质量的科研想法。 AI能否取代人类科学家？西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校，共同研发了“Nova大模型”。该模型能够生成大量突破性的...

来源：

机器之心【阅读原文】
Tags：AI科学家 Nova大模型大语言模型科研效率跨学科创新

2年前 (2024)

OpenAI的大语言模型O1推理能力遭受质疑：GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前，OpenAI悄然发布了o1，其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验，许多模型遇到这些问题时往往会不知所措，甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题，几乎所有的大模型都无法正确解答，然而o1却给出了完美的答案。在之前的文章中，我分享了OpenAI给出的最佳提示词写作方法，第一条就是：保持提示词简单直接。模型擅长理解和响应简单的指令，而不是复杂的指导。我认为这是为了让o1更好地理解需求，同时加快处理速度。直到最近看到苹果发布的一篇关于大型语言模型（LLM）的研究...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：GSM8K OpenAI 大语言模型推理能力逻辑推理

2年前 (2024)

字节跳动推出AGILE框架：运用强化学习优化大语言模型（LLM）Agent端到端能力全面升级

大语言模型（Large Language Models, LLMs）的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力，最近的研究提出了多个关键组件和工作流。然而，如何将这些核心要素整合进一个统一的框架，并进行端到端优化，仍然是一个挑战。来自字节跳动（ByteDance）的研究人员提出了一种基于强化学习（Reinforcement Learning, RL）的LLM Agent框架——AGILE。在AGILE框架下，Agent具备多种能力，包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习，所有这些能力都能进行端到端的训练。特别是，AGILE...

来源：

机器之心【阅读原文】
Tags：AGILE框架 LLM Agent 大语言模型字节跳动强化学习

2年前 (2024)

创造历史：阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama，引领大语言模型潮流

近日，基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜，阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言，Qwen2.5-72B-Instruct在大语言模型（LLM）榜单中排名第10，成为唯一进入前十名的中国大模型。此外，Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九，是当前得分最高的开源大模型。与此同时，Qwen系列在全球开源社区中的影响力显著提升，基于Qwen系列的衍生模型数量已突破7.43万个，超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

来源：

量子位【阅读原文】
Tags：Chatbot Arena Qwen2.5 大语言模型开源模型通义千问

2年前 (2024)

【Letta资讯】MemGPT团队正式宣布创业，获得1000万美元融资，硅谷巨头Jeff Dean倾力投资——探索大语言模型与上下文内存管理的未来

一、为大语言模型构建更长的上下文，并让开发者自由切换基础模型近年来，人工智能领域发展迅猛，尤其是大语言模型（LLM）的应用越来越广泛。然而，由于上下文窗口长度的限制，大语言模型在多轮对话和文档分析等任务中的表现仍有待提升。为了解决这一问题，Letta公司推出了一款名为Letta的AI上下文内存管理平台。 Letta平台将大语言模型的上下文分为“主上下文”和“外部上下文”。主上下文直接由模型访问和操作，而外部上下文则用于存储暂时不需要但在未来可能需要的信息。通过特定的内存管理算法，Letta可以在主上下文和外部...

来源：

智东西【阅读原文】
Tags：AI Agent Letta MemGPT 上下文内存管理大语言模型

2年前 (2024)

国产加速框架TACO-LLM：如何实现推理效率超200%的提升与高性能优化，同时达到降本增效和易用性对齐vLLM？

大语言模型的发展与挑战自从2022年10月ChatGPT问世以来，大语言模型（Large Language Model，简称LLM）引发了全球科技企业的关注。这些模型不仅数量增多，参数规模也在不断扩大，导致计算需求急剧上升。例如，大语言模型通常包含百亿至万亿个参数，训练时需处理数万亿个Token，这对显卡等算力提出了极高要求，同时也带来了巨大的能源消耗。据斯坦福人工智能研究所的《2023年AI指数报告》显示，GPT-3一次训练耗电1287兆瓦时，排放552吨二氧化碳。预计到2025年，AI相关业务在全球数据中心用电量中的占比将从2%增至10%，到203...

来源：

量子位【阅读原文】
Tags：TACO-LLM 大语言模型推理框架降本增效高性能优化

2年前 (2024)

华为诺亚与中科大联合发布ToolACE：一款高效的大语言模型工具调用框架，API合成与数据质检能力媲美GPT-4，成为开源新星

大语言模型（如GPT-4）具有强大的语言处理能力，但在独立运行时仍存在一些局限性，例如无法进行复杂计算、无法获取实时信息以及难以提供专业定制化功能。然而，大语言模型的工具调用能力使其能够提供更全面、实时和精准的服务，从而大大扩展了其应用场景和实际价值。为了提升模型的工具调用能力，高质量、多样化且复杂的训练数据至关重要。然而，现实中收集和标注工具调用数据非常困难，现有合成数据生成方法在覆盖率和准确性方面仍有不足。为了解决这个问题，华为诺亚方舟实验室联合中科大等机构的研究人员提出了一个统一...

来源：

机器之心【阅读原文】
Tags：API 合成 ToolACE 大语言模型工具调用数据质检

2年前 (2024)

探索OLMoE：首个100%开源的混合专家模型，拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型（LM）在各类任务中取得了显著进展，但在训练和推理方面，性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言，高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家（MoE）。MoE在每一层都有多个专家，每次只激活其中的一部分，从而使得MoE模型比密集模型更高效。因此，许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。然而，大多数MoE模型都是闭源的，即便有些模型公开了权重，但对于训练数据...

来源：

机器之心【阅读原文】
Tags：OLMoE 大语言模型开源模型混合专家模型稀疏激活

2年前 (2024)

李沐：依托大语言模型与BosonAI的创业之路——一年融资经历见证人工智能领域的飞速发展

创业初衷与进展在亚马逊工作期间，心中一直怀揣着创业的梦想。最终，在第七年半之际，决定离开稳定的工作，踏上了创业之路。选择创业时，决定专注于大语言模型（LLM），并成立了BosonAI。公司的名称来源于量子物理学中的玻色子，寓意着团队希望将不同背景的人才汇聚在一起，共同创造价值。公司命名与文化在创业之初，一系列项目以“Gluon”命名，代表着将不同的元素紧密相连。最终，新公司命名为“BosonAI”，希望能够传递出“玻色子和费米子组成了世界”的概念，尽管这个名字偶尔会被误解为“Boston”。融资经历在筹备...

来源：

机器之心【阅读原文】
Tags：BosonAI 人工智能创业大语言模型融资

2年前 (2024)

1 234 5