每日AI快讯
DeepSeek V3/R1搭配Colossal-AI,实现低成本构建与高效模型微调,强化学习性能提升,硬件要求直降10倍!
DeepSeek V3/R1 引领潮流,Colossal-AI 助力低成本高质量模型构建 DeepSeek V3/R1 正在全网掀起热潮,其基于原始模型的解决方案和 API 服务已广泛普及。面对低价和免费的竞争压力,如何通过后训练(post-training)结合专业领域数据,站在巨人的肩膀上,打造高质量私有模型,提升业务竞争力与价值?Colossal-AI 提供了强大的支持。 Colossal-AI 是一款开源大模型后训练工具箱,已获得近 4 万 GitHub Star。它为开发者提供了丰富的功能,包括: - 低成本微调:支持满血版 671B LoRA 的 DeepSeek V3/R1 模型进行低成本监督...
苹果 CEO 蒂姆·库克预告 iPhone SE4 即将发布,性能和设计大幅提升
苹果公司 CEO 蒂姆·库克在社交媒体上宣布,苹果将于 19 日发布一款新的智能手机。根据业内分析,这款新机型很可能是备受期待的 iPhone SE4。作为苹果的普及型智能手机系列,iPhone SE 系列一直备受关注,而此次发布的 SE4 是自 2022 年 3 月推出的 SE3 之后,时隔三年的升级版。 据预测,iPhone SE4 将在多个方面进行显著改进。首先,它将配备 6.1 英寸 OLED 显示屏,并支持 Face ID 功能,取代传统的物理主屏幕按钮。此外,iPhone SE4 的价格预计为 499 美元(约合 3600 元人民币),比前代产品高出约 500 元。最引人注目...
AI天才少女罗福莉回应媒体炒作:只想安静做研究
据快科技2月19日报道,自去年12月以来,被誉为“AI天才少女”的罗福莉频繁登上热搜,话题如“雷军千万年薪挖掘天才AI少女”引发了广泛关注。近日,罗福莉深夜在朋友圈发声,表达了对媒体炒作的不满。 罗福莉表示,自己并非所谓的“天才少女”,并指出过度的捧杀只会带来更大的压力。“捧得多高、摔得多重”,她希望外界能给她一个安静的空间,让她专注于难而正确的事情。 针对一些自媒体发布的充满事实性错误和低俗的文章,罗福莉表示,这些文章不仅误导了公众,也给她的家人、朋友及老师带来了不必要的困扰。她呼吁那些为了流量和...
ChatGPT后训练方法被OpenAI前高管公开,PPT全网传播
近日,OpenAI的两位前高管John Schulman和Barret Zoph在离开公司后,将ChatGPT的后训练方法整理成PPT并公开发布。这两位曾在OpenAI担任后训练研究的重要角色,因此他们对这一领域的见解备受关注。 背景介绍 John Schulman是OpenAI的联合创始人之一,曾负责后训练工作;Barret Zoph则曾任后训练研究副总裁。他们在斯坦福大学进行了一场关于后训练及ChatGPT开发经验的演讲,并通过社交媒体分享了PPT。遗憾的是,演讲视频未能录制下来,但观众们纷纷点赞收藏,证明了其的高质量。 后训练阶段详解 后训练是模型开发的最后一...
马斯克斥资20万块GPU打造Grok-3 AI模型,凭借强大推理能力在数学领域暴击DeepSeek R1,深度搜索性能远超OpenAI,彰显大规模GPU训练优势
马斯克口中最强AI模型Grok-3震撼登场 近日,马斯克带领xAI团队正式发布了全球最强大的大模型Grok-3。这款模型使用了20万块GPU进行训练,是人类历史上首次在如此大规模的硬件集群上完成的训练任务。Grok-3一经发布便迅速席卷多个排行榜,击败了o3-mini(high)和DeepSeek-R1等强劲对手。 Grok-3的技术亮点 Grok-3的训练计算量达到了惊人的10倍于Grok-2,其背后支撑的是世界最大的超算集群Colossus,该集群拥有20万块GPU。第一阶段用时122天搭建了10万块GPU,第二阶段再用92天完成了全部20万块GPU的配置。在多项基准测试中...
谷歌AI助手推出重磅功能:Gemini内嵌视频生成功能,Google Vids助力人人成为视频创作导演
谷歌AI助手Gemini即将支持视频生成功能 据科技媒体Android Authority报道,谷歌旗下的AI助手Gemini将很快具备生成视频的能力。虽然该功能尚未正式上线,但种种迹象表明,谷歌正在积极为Gemini添加新功能,旨在打造更强大的AI工具。 代码拆解揭示新功能 根据对Google应用v16.6.23版本APK文件的拆解,发现了一些与视频生成相关的代码描述。代码中多次出现了“videogen”一词,并伴随着“robin”,后者是Gemini在Google App中的内部代码名称。结合这些信息,“videogen”很可能指代视频生成功能。此外,代码中还发现了诸如“Workin...
AI赋能券商调研:DeepSeek算力助力AI大模型与AI应用的深度融合,激发全新调研热情
2月以来券商积极调研A股公司,AI赋能成焦点 根据Wind数据统计,截至2月18日,2月份已有280家A股公司接受了券商的调研。其中,人工智能(AI)话题持续受到投资者的高度关注。在被调研公司的纪要中,AI对公司产品和业务的赋能效果、DeepSeek如何提升市场算力需求等问题成为了讨论的重点。 DeepSeek概念板块短期调整不改长期趋势 尽管近期二级市场上DeepSeek概念板块出现了一定程度的降温,但业内专家普遍认为,这并不意味着本轮科技股行情的结束。全球范围内对DeepSeek大模型的认可与应用不断增加,AI真正赋能实际应用的进...
聚焦AI初创公司:OpenAI前高管创立Thinking Machines Lab,打造安全多模态AI,团队近半成员来自前东家
新兴AI初创公司Thinking Machines Lab的崛起与愿景 2023年2月19日,据快科技报道,前OpenAI首席技术官Mira Murati携手多位OpenAI前高管,共同创立了新的AI初创公司——Thinking Machines Lab。该公司迅速汇聚了一批顶尖人才,核心团队成员包括:创始人兼CEO Mira Murati(前OpenAI首席技术官)、首席科学家John Schulman(OpenAI联合创始人)、首席技术官Barret Zoph(前OpenAI研究副总裁)以及安全负责人Lilian Weng(前OpenAI安全副总裁)。尤为引人注目的是,Thinking Machines Lab的近30名精英员工中,超过12位成员均来自...
杨植麟与梁文锋在稀疏注意力框架和Transformer模型领域论文撞车,探讨MoBA游戏和长文本处理中的AGI应用进展
智东西报道:稀疏注意力框架MoBA助力长文本处理 2月19日,DeepSeek发布了最新的稀疏注意力框架NSA论文,仅仅5小时后,“大模型六小虎”之一的月之暗面Kimi团队也公布了一篇类似的MoBA论文。MoBA框架在处理超长序列任务时展现了高效、动态的注意力选择能力,提升了大模型的效率和性能,同时保持了与全注意力机制相当的效果。 MoBA与NSA的对比 MoBA是一个稀疏注意力框架,旨在提高长文本处理效率。与NSA相比,MoBA的最大上下文长度可扩展到10M tokens,而NSA最长为64k tokens。值得注意的是,DeepSeek创始人梁文锋是NSA论文的...
紧跟DeepSeek步伐,阶跃星辰重磅开源两款国产多模态大模型——视频生成模型与语音交互模型引领AI技术创新浪潮
国内 AI 创企阶跃星辰联合吉利汽车发布两款多模态开源大模型,性能全球领先 本周二,国内人工智能创业公司阶跃星辰与吉利汽车集团联合宣布,开源发布了两款多模态大模型:视频生成模型 Step-Video-T2V 和语音交互模型 Step-Audio。根据官方测评报告,Step-Video-T2V 是目前参数量最大、性能最好的开源视频生成模型。 Step-Video-T2V 模型部署及技术报告链接: - GitHub: [https://github.com/stepfun-ai/Step-Video-T2V](https://github.com/stepfun-ai/Step-Video-T2V) - Hugging Face: [https://huggingface.co/ste...