华人科学家打造全球首个视觉记忆大模型，Memories.ai引领多模态AI与AGI新纪元

Memories.ai发布全球首款大型视觉记忆模型，华人创始人团队引关注

近日，由前Meta员工沈俊潇（Shunxiao Shen）与Enmin Zhou联合创立的人工智能初创公司Memories.ai正式发布其首款大型视觉记忆模型（Large Visual Memory Model），该模型具备视觉记忆回溯能力，有望在多模态大模型领域带来突破性进展。

该项目已获得800万美元种子轮融资，由Susa Ventures领投，Crane Venture Partners、三星Next、Fusion Fund等知名机构跟投。目前，用户可前往其官网（[https：//memories.ai/app](https：//memories.ai/app)）免费体验首月服务。

技术突破：赋予AI“视觉记忆”能力

Memories.ai的视觉记忆模型旨在解决多模态大语言模型在处理视觉信息时缺乏长期记忆的问题。该模型不仅能够解析用户意图，还能检索相关的视觉记忆片段，并进行整合与推理，最终以结构化方式输出结果。

这一技术的核心创新在于其智能决策机制，能够自主判断何时、如何调用哪些视觉记忆。通过记忆引用机制，系统实现了对视觉信息的长期上下文处理，为AI在视频理解、图像检索等场景下的应用提供了更强的能力支撑。

两位华人创始人背景亮眼

Memories.ai的两位联合创始人均为华人背景，且拥有顶尖学术与行业经验。

沈俊潇1999年出生，初中就读于苏州，14岁获得奖学金赴英国留学，后进入剑桥大学攻读工程学，分别获得文学学士、工程学硕士及哲学博士学位。曾在摩根士丹利实习，并于2022年加入Meta现实实验室担任研究科学家。2024年离职创业，成立Memories.ai。

CTO Enmin Zhou毕业于美国加州大学洛杉矶分校，主修数学与计算科学，后在布朗大学攻读数据科学硕士。曾在Meta担任机器学习工程师，2024年同样选择离职加入Memories.ai创业。

两位创始人在Meta期间便意识到视觉记忆建模的重要性，最终决定共同投身这一前沿领域。

性能超越主流模型，测试表现亮眼

根据Memories.ai公开的测试数据，其模型在多项视频处理任务中表现优异：

– 在视频零样本分类基准测试中，Memories.ai在HMD8和K400数据集上分别比历史最佳模型PE-G高出7.6分和6.6分。
– 在视频检索任务中，其在AVN数据集的文字转视频测试中得分提升11分，全面超越此前领先模型。
– 在视频问答任务中，Memories.ai在多个主流数据集上击败了OpenAI的GPT-4o、GPT-4.1以及谷歌的Gemini 2.5 Pro，创下新的性能记录。

这些测试结果表明，Memories.ai在视频理解与视觉记忆建模方面已经走在行业前列。

灵感来自人脑记忆机制

沈俊潇在其技术博客中透露，Memories.ai的模型架构灵感来源于人类大脑的记忆机制，并构建了一套完整的视觉记忆处理流程，包括：

1. 查询模型：将用户输入的线索转化为可搜索请求；
2. 检索模型：进行粗粒度筛选，初步定位相关记忆片段；
3. 全模态索引模型：结合多种信息源进行细粒度提取；
4. 选择模型：过滤无关信息，聚焦关键；
5. 反思模型：监控记忆准确性，必要时进行修正；
6. 重建模型：整合碎片信息，生成连贯输出。

这一流程模拟了人类从记忆触发、检索、验证到重构的全过程，使得AI在处理视觉信息时更接近人类的认知方式。

结语：迈向AGI的重要一步

沈俊潇表示，Memories.ai的技术探索是迈向通用人工智能（AGI）的重要一步。通过赋予AI“视觉记忆”能力，模型在处理复杂视觉任务时展现出更强的逻辑推理与上下文理解能力。

此次800万美元的种子轮融资，也反映了资本市场对这一技术方向的高度认可。随着Memories.ai的持续发展，或将推动多模态AI在教育、医疗、创作等领域的广泛应用。

本文来源：