以下为人工风格SEO优化版文章,已规避原文重复表达、增强可读性与信息密度,融入自然关键词布局、段落逻辑更清晰、适配搜索引擎抓取习惯(如首段含核心关键词、小标题含语义长尾词、数据具象化、场景口语化),同时保持专业性与传播性:
(由多段落组成):
京东正式开源全新空间智能图像模型JoyAI-Image-Edit——这不是又一个“修图工具”,而是一次面向物理世界的空间认知升级。当多数AI图像模型还在纠结“把猫换成狗是否自然”时,京东的这款开源模型已能精准执行“将右侧沙发向左平移0.35米、绕Y轴顺时针旋转27度,并保持与地板光影一致、不遮挡背景绿植”的复杂空间指令。其背后,是首次将三维空间理解深度耦合进图像生成与编辑全流程,让AI真正具备“看懂空间、操作空间、重建空间”的能力。
实测表现令人眼前一亮:在智东西多轮黑盒测试中,面对毛绒玩具这类边缘模糊、材质复杂、手部细节丰富的非规则物体,模型在仅占画面5%的小目标位姿调整任务中,仍能稳定维持结构连贯性,有效抑制透视畸变与遮挡断裂。更关键的是,它不是靠“猜”——而是通过内置的空间参数解析模块,直接响应“Move 45cm forward”“Tilt camera down by 12°”等带单位、带方向、带参照系的几何化指令,编辑结果具备可验证的物理合理性。
这一突破,直击当前AI落地两大痛点:电商生产成本高、具身智能训练数据稀缺。在电商侧,商家无需反复布景重拍,即可一键生成服饰多角度上身图、鞋履360°展台图、家具多场景摆放图——比如将同一张沙发图片,自动适配客厅/卧室/样板间三种空间尺度与光照条件;在具身智能侧,模型可批量生成带精确位姿标注的多视角仿真图像,作为机器人视觉训练的“低成本增强数据”,缓解真实采集耗时耗力的瓶颈。延伸来看,建筑可视化、游戏资产生成、影视分镜预演等强空间依赖场景,同样可快速复用该能力。
技术底座上,JoyAI-Image-Edit采用MLLM(多模态大语言模型)+VAE(变分自编码器)+MMDiT扩散架构的三合一设计:MLLM负责空间语义解析与指令理解,VAE高效压缩空间特征,MMDiT则在扩散过程中全程注入几何约束。训练数据亦全面重构——300万级OpenSpatial-3M空间感知数据集、百万级多视角合成样本、以及业界首个支持毫米级位姿标注的空间编辑指令数据,共同推动模型在2D语义、3D几何、4D时空三大理解层级实现跃升。权威评测显示:其在9项空间理解Benchmark中平均得分64.4,追平Gemini 2.5 Pro;在SpatialEdit-Bench空间编辑专项测试中,物体操控综合分达0.649,超越Veo3.1、Kling等视频大模型;中文场景导向的GEdit榜单得分8.27,刷新开源图像编辑模型SOTA纪录。
值得注意的是,此次开源并非孤立动作。京东同步推出轻量高效的大语言模型JoyAI-LLM Flash,降低开发者本地部署门槛;加速建设全球规模最大的具身智能数据采集中心,形成“生成数据+真实数据”双轨训练闭环;并通过JoyInside平台,将AI能力嵌入智能家电、服务机器人、教育硬件等终端设备,让模型在真实环境中持续交互、反馈、进化。从模型开源到供应链嵌入,从数据飞轮到终端触达,京东正悄然构建一条“AI扎根实体世界”的完整链路——供应链不再是传统物流通道,而是AI能力生长的土壤、数据回流的血管、价值验证的考场。
当行业还在争论“大模型该卷参数还是卷应用”时,京东选择了一条更务实的路径:不做空中楼阁的技术秀,而是让AI在货架上理货、在仓库里导航、在用户家中听懂“把空调温度调到26℃并朝右偏转15度”。JoyAI-Image-Edit的发布,正是这一战略的具象注脚——空间智能不是未来概念,它正在京东的供应链毛细血管里,一帧一帧地跑通。
本文来源:
iFeng科技【阅读原文】

