具身大模型体系首发InternVLA

Launch of the General-Purpose Embodied Foundation Model System InternVLA

重构具身认知范式,统一“理解、想象与执行”,适配多机多场景,实现泛任务协作

具身大模型体系首发InternVLA

Launch of the General-Purpose Embodied Foundation Model System InternVLA

重构具身认知范式,统一“理解、想象与执行”,适配多机多场景,实现泛任务协作

三维多模态感知与推理

3D Multi-modal Perception & Reasoning

基于大规模虚实混合场景资产,自动化构建海量多模态语料,配合人在回路或人工标注的高质量多元评测体系,持续推动从点云到第一视角图像输入的三维多模态大模型研究,让大模型具备通用的空间理解、想象、推理能力,构建数字空间到物理空间的感知桥梁

EmbodiedScan 系列工作:最大规模三维场景多模态数据驱动

大规模场景资产搭配全面数据管线提供充足语料供给

InternSR:空间推理工具链支持高质量多元空间推理评测体系

面向不同输入、不同场景的人工高质量评测体系

PointLLM 系列工作:国际领先的三维多模态大模型能力

从点云到第一视角输入,从物体到场景理解

导航智能

Navigation Intelligence

基于自研的虚实贯通训练与评测管线,依托大规模数字场景资产与海量多模态语料,结合每日50000条轨迹/台天的数据合成效率,低成本高效率训练具备国际领先性能的导航“大脑”,“一脑多形”支持跨场景、跨本体的零样本泛化

InternVLA-N1: 基于第一视角的首个双系统端到端导航大模型

融合超长程指令跟随和密集动态环境避障能力异步丝滑推理

StreamVLN: 流式导航大模型迈向在线推理和长时记忆

纯仿真数据训练统一流式推理框架实现高效训练和零样本泛化

NavDP: “一脑多形” 通用导航扩散策略

虚实贯通高效训练实现跨本体跨场景密集动态环境避障

操作智能

System-2

Coming Soon

Manipulation Foundation Model

基于自研的虚实贯通训练管线,依托8万级语义标注的数字物体资产,并结合每日每台生成 8000 条轨迹的任务与动作规划一体化合成数据,赋能具身大脑复杂场景上指令跟随能力与跨任务泛化

GenManip: 首个LLM驱动的具身推理任务合成和操作评测平台

大模型驱动的面向具身推理任务泛化操作的操作仿真

InstructVLA:多模态推理驱动的操作任务泛化能力增强

联合视觉语言动作微调,实现从推理理解到操作执行的跨模态泛化迁移

操作智能

System-1

Manipulation Foundation Model

InternVLA-A1一脑多形、虚实贯通的理解、想象、执行一体化模型,赋能高动态场景的多机协作

理解、想象、执行一体化架构

视觉预测指导动作执行,赋能稳定的动态交互

虚实数据混合训练,提升极端场景的泛化能力

人形运动智能

Humanoid Locomotion & Control Model

以人形机器人基础运动控制为起点,构建分层次、系统化的控制算法体系。融合多模态感知与深度强化学习技术,赋予控制策略本体泛化,技能泛化,环境泛化的能力。逐步实现从“基础运动”到“全身控制”再到“移动操作”的技能跃迁,显著增强机器人在复杂真实场景下的运动,指令跟随与精密操控能力

“一脑多形”全身运动控制策略

运动策略跨本体,跨技能泛化

复杂环境中从零自主站起

提升起身稳定性与抗干扰能力

技能层级进化:从运动到操作

实现从基础运动到全身控制与移动操作的能力跃迁

其他更多

More

联系我们:

embodiedai@pjlab.org.cn

备案信息:

沪ICP备2021009351号-1

×