数据引擎发布

Launch of Data Engine

打造高质量、低成本的“数据工厂”

数据引擎

3D AIGC 驱动无限资产生成

高保真几何+照片级渲染的场景数字化技术,配合覆盖 22 个类别、6 种运动关节、秒级速度的可交互 3D 资产生成技术,提供海量仿真资产基础

可扩展物理仿真和生成式轨迹合成

基于海量资产构建面向不同本体、任务、场景的可扩展物理仿真和世界模型融合轨迹合成管线,单台服务器日合成数据量高达50,000条,成本较半年前再降66%(相当于真机数据成本的0.06%)

高质量标注与筛选数据漏斗

构建大模型驱动、人工在环的创新数据管线,支持涵盖操作、导航、运控等主流任务,2D/3D框、轨迹、抓取点等常见标签的标注筛选,近100%准确率滤除低质数据,缩短模型训练时间达23%

200万+高质量的开源数据量

11个数据集

涵盖6大方向

操作、导航、人形运控、世界模型等多个方向

统一 LeRobot 等主流格式

多种模态

视频、点云、3D等

种类

合成数据和真机数据虚实混合

涵盖10余种主流机器人本体、20000+场景、多元环境随机化

开源数据集

Data

Bench

Scenes

N1

H1

M1

A1

WM

Scan

InternScenes

四万个真实布局的可交互室内场景

InternData-N1

百万级端到端高质量导航数据

InternBench-N1

跨平台全系统模块化导航基准

InternData-H1

百万级人体动作序列数据

InternData-M1

任务与动作规划表征一体化操作数据

InternBench-M1

开放桌面场景的视觉语言操作任务评测

InternData-A1

多源异构、虚实混合、场景动态的操作数据

InternBench-A1

高动态交互场景下的操作任务测评

InternData-WM

开放环境4D交互数据集

InternBench-WM

生成式世界模型评测基准

EmbodiedScan

首个大规模真实场景具身三维感知数据集

MMScan

最大规模三维场景语料数据集

GRScenes

十万级可交互仿真场景

PointLLM

大规模三维物体点云语料数据集

LLaVA-3D-Instruct-86K

大规模三维场景语料数据集

下载排行榜

InternScenes

InternData-N1

EmbodiedScan

MMScan

GRScenes

联系我们:

embodiedai@pjlab.org.cn

备案信息:

沪ICP备2021009351号-1