Intern Robotics

4D世界模型

InternWorldModel

技术报告

4D World Models

首次将几何重建与生成式建模深度融合，提出“重建–预测–规划”一体化大模型框架，使智能体具备环境感知、行为预测与目标驱动决策能力，推动具身智能从感知走向认知与行动的闭环进化

目标导向
视觉规划

Goal-Driven Visual Planning

感知与决策协同，
实现智能行动路径规划

4D动态重建

4D Dynamic Reconstruction

实时建模动态环境时空变化

动作条件视频预测
支持零样本泛化

Action-Conditioned Video Prediction with Zero-Shot Generalization Predicts future scenes conditioned on actions, enabling strong generalization

基于动作意图预测未来感知，迁移能力强

场景数字化

InternScenes

技术报告

Scene Digitalization

自研多视图采集与重建一体化系统和算法，支持高效获取室内外各类场景数据，在保证几何精度的同时实现高保真可视化渲染，兼顾效率、成本与真实感，适配通用尺度的数字化需求

高效低成本

High Efficiency & Low Cost

采集与建模效率较传统方法提升数十倍，具备更强鲁棒性与适应性

高精度几何 + 照片级渲染

Accurate Geometry with Photorealistic Rendering

实现精准建模与高保真视觉效果的统一

全场景通用性

Compatible with All Scene Types

支持室内、室外、高空、地面等多类场景

场景生成

Scene Generation

首个开源程序化场景生成系统，支持高速生成无限数量的高质量、可交互三维物体，以更低成本持续供给仿真训练、任务规划等具身智能下游任务所需的多样化数据资源

高效无限生成

Fast & Scalable Generation

秒级生成速度，满足海量数据需求

类别丰富，结构多样

Category-Rich and Articulated

覆盖 22 个类别、6种运动关节，支持交互模拟

高质量模型，超越行业基准

High Quality Beyond Existing Benchmarks

模型质量优于 PartNet-Mobility 等现有数据集

其他更多

More

4D世界模型赋能具身智能

虚实贯通: 统一真实与仿真世界的数据与能力边界

4D世界模型

InternWorldModel

目标导向
视觉规划

Goal-Driven Visual Planning

4D动态重建

4D Dynamic Reconstruction

动作条件视频预测
支持零样本泛化

Action-Conditioned Video Prediction with Zero-Shot Generalization Predicts future scenes conditioned on actions, enabling strong generalization

场景数字化

InternScenes

高效低成本

High Efficiency & Low Cost

高精度几何 + 照片级渲染

Accurate Geometry with Photorealistic Rendering

全场景通用性

Compatible with All Scene Types

场景生成

高效无限生成

Fast & Scalable Generation

类别丰富，结构多样

Category-Rich and Articulated

高质量模型，超越行业基准

High Quality Beyond Existing Benchmarks

其他更多

联系我们：

备案信息：

4D世界模型赋能具身智能

虚实贯通: 统一真实与仿真世界的数据与能力边界

4D世界模型

InternWorldModel

目标导向 视觉规划

Goal-Driven Visual Planning

4D动态重建

4D Dynamic Reconstruction

动作条件视频预测支持零样本泛化

Action-Conditioned Video Prediction with Zero-Shot Generalization Predicts future scenes conditioned on actions, enabling strong generalization

场景数字化

InternScenes

高效低成本

High Efficiency & Low Cost

高精度几何 + 照片级渲染

Accurate Geometry with Photorealistic Rendering

全场景通用性

Compatible with All Scene Types

场景生成

高效无限生成

Fast & Scalable Generation

类别丰富，结构多样

Category-Rich and Articulated

高质量模型，超越行业基准

High Quality Beyond Existing Benchmarks

其他更多

联系我们：

备案信息：

目标导向
视觉规划

动作条件视频预测
支持零样本泛化