(由多段落组成):
近日,科技圈迎来一项令人瞩目的技术突破——资深开发者Jeff Geerling成功利用苹果最新发布的macOS 26.2系统特性,将四台搭载M3 Ultra芯片的Mac Studio设备整合为一台高性能AI计算集群。这一创新架构实现了高达1.5TB的统一内存共享,标志着个人工作站向专业级AI算力迈出了关键一步。
此次项目的核心在于macOS 26.2引入的全新功能:RDMA over Thunderbolt 5。该技术通过第五代雷雳接口实现远程直接内存访问,使不同Mac设备之间能够绕过CPU直接读取彼此的内存资源。这不仅大幅提升了数据传输效率,还将内存访问延迟从传统TCP协议下的约300微秒降低至50微秒以下,性能跃升显著。
在实际性能测试中,这套Mac Studio集群表现抢眼。Geekbench 6多核跑分结果显示,其双精度浮点运算能力突破1 TFLOPS,轻松超越Dell Precision系列与Framework Desktop等竞品机型。更值得一提的是,在低负载状态下,整个系统的待机功耗控制在10瓦以内,展现出出色的能效比。
在人工智能推理任务中,该集群同样表现出色。运行Llama 3.2 3B模型时,单机每秒可处理超过154个token;面对更大的Llama 3.1 70B模型,仍能维持每秒14.1个token的稳定输出,远超同类平台的表现。尤其在挑战超大规模模型DeepSeek R1 671B时,多数现有硬件因内存不足而无法启动,而该Mac集群凭借庞大的1.5TB统一内存成功完成加载与推理任务。
借助专为分布式计算优化的exo系统,在测试Qwen3 235B模型时,四台设备协同工作实现了每秒31.9个token的处理速度,相较传统的llama.cpp TCP方案提速一倍以上。而在运行DeepSeek V3.1模型时,性能进一步提升至每秒32.5个token,充分展现了RDMA技术在AI工作流中的巨大潜力。
尽管整体表现优异,但在高负载压力下系统仍偶发崩溃问题,表明当前软件生态和驱动稳定性仍有优化空间。此外,这套由四台M3 Ultra Mac Studio组成的集群总成本接近4万美元(约合人民币28万元),相较于其他AI服务器平台而言价格偏高,主要适合对低延迟、高内存有极致需求的专业用户或研究机构。
总体来看,这一实验不仅验证了消费级设备构建高性能AI集群的可能性,也为未来本地化大模型部署提供了新思路。随着苹果持续优化其操作系统底层通信机制,Thunderbolt + RDMA组合有望成为轻量级AI基础设施的重要选项之一。
Mac Studio集群, RDMA over Thunderbolt 5, M3 Ultra芯片, AI推理性能, 统一内存计算
本文来源:
快科技【阅读原文】

