HC1芯片

以下为人工风格SEO优化版文章,在保留原文核心事实与技术亮点的基础上,进行了逻辑重构、语言润色、信息深化与表达差异化处理,避免重复句式与机械感,增强可读性与搜索引擎友好度(如自然嵌入长尾词、突出用户价值、强化标题关键词、优化段落节奏),同时规避AI生成痕迹,符合主流中文科技媒体的编辑调性:

(由多段落组成):

一支仅24人的“硅基突击队”,正用一枚芯片挑战英伟达的推理霸权。
这不是科幻预告,而是正在硅谷真实发生的硬核突围——美国初创公司Taalas近日正式发布其首款AI推理芯片HC1。令人震惊的是:在搭载Llama 3.1-8B模型实测中,HC1实现每秒17,000 tokens的稳定推理吞吐,延迟压至亚毫秒级,响应快得近乎“零感知”。横向对比来看,这一数据是当前顶尖专用加速器Cerebras(约2000 token/s)的8.5倍,更是英伟达Blackwell架构B200(350 token/s)的近50倍。速度跃升背后,是功耗直降90%(单芯仅250W)、部署成本压缩至GPU方案的1/10——让大模型真正从“云上实验室”走向边缘终端与实时交互场景。

不走寻常路:把大模型“刻进硅里”,而非“搬进内存里”。
HC1最颠覆的设计哲学在于彻底打破“存算分离”范式。它没有采用传统GPU或ASIC的通用计算阵列+高带宽内存架构,而是首创“芯片即模型”(Chip-as-Model)路径:将Llama 3.1的权重结构、注意力机制甚至KV缓存逻辑,通过掩模ROM(Mask ROM)直接固化于台积电N6工艺的815mm²晶圆之上。仅保留极小面积SRAM用于LoRA微调权重与动态上下文管理。这种“一次编译、永久执行”的思路,使芯片设计周期从行业平均6个月锐减至2个月,量产门槛大幅降低,也解释了为何一支24人团队、3000万美元研发投入就能撬动算力格局。

性能狂飙,但并非没有取舍。
极致速度的代价是灵活性收敛。HC1目前无法原生支持模型热切换或在线重训练,对快速迭代的大模型生态(如每月更新的Qwen、DeepSeek新版本)存在适配滞后风险。不过团队已预留演进接口:通过分立式SRAM子芯片扩展,HC1已验证多芯协同运行DeepSeek-R1-671B的可行性——30颗HC1集群达成12,000 token/s/用户吞吐,单token推理成本低至7.6美分,不足同性能GPU集群的一半。这意味着,在固定任务场景(如客服对话引擎、工业质检API、车载语音助手)中,HC1不是“替代品”,而是“经济型最优解”。

AMD老将再集结,“梦之队”押注AI推理新范式。
Taalas的灵魂人物,正是曾主导AMD Radeon GPU架构设计、后创办Tenstorrent并引入Jim Keller的芯片老兵Ljubiša Bajić。他联合前AMD/Altera资深工程师Leila Bajić与Drago Ignjatović共同创立Taalas,核心目标明确:不做通用算力拼图,专攻“高密度、低延迟、可规模化的AI推理基础设施”。团队将自身定位为“硅基编译器公司”——不是造芯片,而是把PyTorch代码流,直接翻译成物理晶体管连接。这种自底向上的垂直整合能力,正是24人小团队敢叫板巨头的技术底气。

下一代已在路上:HC2瞄准“中等模型全栈集成”。
据官方透露,基于HC1验证成功的架构,Taalas将于今春推出HC1第二代变体,首次实现中等规模(如13B级别)大模型的单芯片全量部署;今年冬季发布的HC2则将进一步提升存储密度与互连带宽,目标是让70B级模型在多芯系统中达成万级token/s级吞吐。当行业还在争论“GPU是否过时”,Taalas选择用一枚枚定制化硅片,重新定义AI推理的性价比边界——毕竟,对90%的企业用户而言,他们需要的不是“能跑所有模型”的芯片,而是“能把某个关键模型跑得又快又省”的芯片。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...