标签：开源

微软发布Phi-3 Mini：3.8B参数小到能塞进手机，性能媲美GPT-3.5

微软近日在其官网上开源了名为 Phi-3-mini 的小型语言模型，这是 Phi-3 系列的第一个模型，拥有38亿参数和丰富的训练数据。Phi-3-mini 在多项语言、推理、编码和数学基准测试中表现出色，超越了许多百亿参数规模的模型。该模型有两种上下文长度变体，经过预训练和指令调整，能更好地理解和执行各种指令。与大型语言模型相比，Phi-3-mini 更易于操作，适合在端侧部署和运行。微软表示，该模型的成本远低于类似功能的模型，例如可能是GPT-3.5成本的十分之一。Phi-3-mini 的出色性能得益于合成数据集的训练，该数据集由过滤的网...

来源：

iFeng科技【阅读原文】
Tags：Phi-3-mini 开源微软端侧部署语言模型

2年前 (2024)

大模型开源还是闭源好，周鸿祎与李彦宏针尖对麦芒

在大模型的开源与闭源之争中，360创始人周鸿祎与百度创始人李彦宏发表了不同的看法。李彦宏认为闭源大模型在能力和商业模式上优于开源，而开源可能无法聚集足够的资源。在百度AI开发者大会上，他进一步指出开源模型可能会落后。周鸿祎则坚信开源的力量，认为开源模型能推动技术进步，且发展迅速。然而，尽管开源模型在某些方面取得进步，如Llama3，但目前它们在技术和应用上仍落后于闭源模型，如GPT-4、Claude-3和Gemini Ultra。周鸿祎支持开源可能是为了360智脑在市场竞争中的位置，鼓励创业者使用开源模型，避免重复研发...

来源：

三易生活公众号【阅读原文】
Tags：周鸿祎大模型开源李彦宏闭源

2年前 (2024)

最强开源大模型Llama 3来了！4000亿参数模型狙击GPT-4，训练数据量达Llama 2七倍

Meta公司最近发布了其最先进的开源大模型——Llama 3系列，包括8B和70B两个版本，这些模型在多项基准测试中超越了其他开源和闭源模型。Llama 3 8B在MMLU、GPQA等任务上优于谷歌的Gemma 7B和Mistral 7B Instruct，而70B版本则在相同基准上超过了闭源的谷歌Gemini Pro 1.5和Claude 3 Sonnet。Llama 3系列的最大模型规模预计将超过4000亿参数，标志着开源模型的一个重要里程碑。 Llama 3基于超过15T的公开数据进行预训练，数据量是前一代Llama 2的七倍，代码量也增加了四倍。训练效率相较于Llama 2提高了三倍。Meta的AI助手已经...

来源：

智东西【阅读原文】
Tags：Llama 3 Meta 大语言模型开源预训练数据

2年前 (2024)

剑指Sora！120秒超长AI视频模型免费开玩

近年来，Picsart AI Research等团队合作推出了创新工具StreamingT2V，该工具能够生成长达1200帧、持续2分钟的高质量视频，超越了之前的Sora模型。这款开源软件无缝对接SVD和animatediff等模型，推动了AI视频生成技术的进步。尽管目前的演示效果可能较为抽象，但随着技术的不断发展，未来有望实现更长时长的AI视频生成。StreamingT2V采用了先进的自回归技术，保证视频时间一致性、文本对齐以及高图像质量。此外，它通过条件注意力模块和外观保留模块解决了视频生成中的长期记忆问题，以实现平滑过渡和对象特征保持。用户可以...

来源：

新智元公众号【阅读原文】
Tags：AI视频生成 StreamingT2V 开源自回归技术长视频模型

2年前 (2024)

360 智脑 7B 参数大模型开源，支持 50 万字长文本输入

360公司最近在GitHub上公开了其创新项目——360智脑7B，这是一个具有70亿参数的大型模型，旨在推动人工智能技术的发展。该模型基于3.4万亿的Tokens语料库进行训练，涵盖了中文、英文和代码等多种语言类型。360公司强调，360K版本（约50万字）是目前中国国产开源模型中最长的文本长度。在OpenCompass的一系列主流评估数据集中，360智脑7B表现出色，参与了C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA等任务，展示了其在自然语言理解、知识、数学计算推理、代码生成和逻辑推理等多个...

来源：

IT之家【阅读原文】
Tags：360智脑7B 大语言模型开源微调训练代码长文本理解

2年前 (2024)

博鳌热议AI大模型，人民网报告梳理产业机遇：端云结合/芯片/开源

在中国，AI大模型产业正在迅速崛起，人民网在博鳌亚洲论坛上发布的《2024年中国AI大模型产业发展报告》揭示了其背后的机会与挑战。该报告强调了政策、技术和市场的三大驱动力，指出语言大模型技术，如Transformer架构、RLHF和指令微调，是产业发展的核心。在应用方面，大模型已在办公、制造等领域展现出降本增效的能力。政策支持下，多地已出台相关措施促进产业发展，如北京、深圳等。大模型部署分为云端和端侧，其中端云结合成为热议焦点，以vivo蓝心大模型为代表，它是首个手机端开源大模型，提供了多参数量级的选择，以...

来源：

量子位【阅读原文】
Tags：AI大模型云端大模型开源端侧大模型行业应用

2年前 (2024)

马斯克用行动反击开源自家顶级大模型压力给到OpenAI

马斯克近期做出了一个重大决定，开源了名为Grok-1的大型语言模型，使其成为目前参数量最大的开源模型，拥有3140亿参数，超过OpenAI的GPT-3.5。Grok-1的开源封面图由Midjourney生成，象征着“AI帮助AI”的理念。该模型遵循Apache 2.0协议，允许用户自由使用、修改和分发，无论个人还是商业。尽管使用Grok-1可能需要大量GPU内存，但其开源性质已吸引了大量关注，GitHub上的星标数量不断攀升。 Grok-1由马斯克的AI初创公司xAI在四个月内开发完成，先期的Grok-0模型在标准测试中表现接近Meta的Llama2。经过优化，Grok-1在HumanEva...

来源：

财联社【阅读原文】
Tags：Grok-1 参数量大语言模型开源马斯克

2年前 (2024)

马斯克突然开源Grok：3140亿参数巨无霸，免费可商用

马斯克旗下的大模型Grok最近宣布开源，成为目前最大参数量的开源模型，拥有3140亿参数。Grok-1基于混合专家（MoE）架构，包含8个专家，其中两个专家在处理任务时被激活，激活参数量高达86B。尽管模型规模庞大，需要高性能GPU和内存支持，但Grok-1的开源代码和权重已在GitHub上发布，采用Rust编程语言和JAX框架。此外，Grok-1的embedding方式、窗口长度、vocab大小等技术细节也被公开。开源许可协议为Apache 2.0，允许商业使用。马斯克此举被认为是对OpenAI封闭政策的回应，同时特斯拉、SpaceX和Twitter等其他业务也在不断创新。

来源：

量子位【阅读原文】
Tags：Grok 参数量开源混合专家模型马斯克

2年前 (2024)

“手撕”OpenAI后，马斯克宣布开源自己的ChatGPT竞品

马斯克宣布其AI初创公司xAI将在本周开源名为Grok的大模型，以此回应OpenAI背离开源承诺的指责。马斯克起诉OpenAI违背公共开源人工通用智能（AGI）的初衷，指控其成为微软的闭源子公司。OpenAI随后回应并披露邮件，表明马斯克曾同意不开源AGI。Grok是xAI的聊天机器人，有两种模式，将对X Premium+订阅用户开放。马斯克开源Grok的决定在X平台上受到关注，但也引发对付费用户处理方式的疑问。热门Tags：马斯克, OpenAI, Grok, 人工智能, 开源

来源：

iFeng科技【阅读原文】
Tags：Grok OpenAI 人工智能开源马斯克

2年前 (2024)

追赶Sora难在哪？周鸿祎回应：算力是问题，集中国内所有AI企业的算力或许是方法之一

当前，Sora的热潮席卷而来，国内的大型模型企业正面临着如何迎头赶上的挑战。据360集团创始人周鸿祎的观点，如果Sora的技术路径开放源代码，国内企业有望迅速跟进。然而，关键的难题在于算力——这可能是追赶过程中的一个显著壁垒。为解决这个问题，他建议整合国内所有AI企业的计算资源或许是一条可行之路。鉴于Sora在视频分析中对算力的需求远超大规模模型，当前国内GPU供应受限的状况无疑加大了难度。据新京报报道，Meta已拥有50万块GPU，并计划明年增加至百万块；微软预计也将进行百万级别的GPU采购。相比之下，国内所有...

来源：

界面新闻【阅读原文】
Tags：GPU Sora 国内大模型开源算力

2年前 (2024)

1 2 345