Intern Robotics

三维多模态感知与推理

3D Multi-modal Perception & Reasoning

基于大规模虚实混合场景资产，自动化构建海量多模态语料，配合人在回路或人工标注的高质量多元评测体系，持续推动从点云到第一视角图像输入的三维多模态大模型研究，让大模型具备通用的空间理解、想象、推理能力，构建数字空间到物理空间的感知桥梁

EmbodiedScan 系列工作：最大规模三维场景多模态数据驱动

大规模场景资产搭配全面数据管线提供充足语料供给

InternSR：空间推理工具链支持高质量多元空间推理评测体系

面向不同输入、不同场景的人工高质量评测体系

PointLLM 系列工作：国际领先的三维多模态大模型能力

从点云到第一视角输入，从物体到场景理解

导航智能

技术报告

Navigation Intelligence

基于自研的虚实贯通训练与评测管线，依托大规模数字场景资产与海量多模态语料，结合每日50000条轨迹/台天的数据合成效率，低成本高效率训练具备国际领先性能的导航“大脑”，“一脑多形”支持跨场景、跨本体的零样本泛化

InternVLA-N1: 基于第一视角的首个双系统端到端导航大模型

融合超长程指令跟随和密集动态环境避障能力异步丝滑推理

StreamVLN: 流式导航大模型迈向在线推理和长时记忆

纯仿真数据训练统一流式推理框架实现高效训练和零样本泛化

NavDP: “一脑多形” 通用导航扩散策略

虚实贯通高效训练实现跨本体跨场景密集动态环境避障

操作智能

InternVLA-M1

技术报告

Manipulation Foundation Model

基于自研的虚实贯通训练管线，依托8万级语义标注的数字物体资产，并结合每日每台生成 8000 条轨迹的任务与动作规划一体化合成数据，赋能具身大脑复杂场景上指令跟随能力与跨任务泛化

GenManip: 首个LLM驱动的具身推理任务合成和操作评测平台

大模型驱动的面向具身推理任务泛化操作的操作仿真

InstructVLA：多模态推理驱动的操作任务泛化能力增强

联合视觉语言动作微调，实现从推理理解到操作执行的跨模态泛化迁移

操作智能

InternVLA-A1

Manipulation Foundation Model

InternVLA-A1一脑多形、虚实贯通的理解、想象、执行一体化模型，赋能高动态场景的多机协作

理解、想象、执行一体化架构

视觉预测指导动作执行，赋能稳定的动态交互

虚实数据混合训练，提升极端场景的泛化能力

人形运动智能

Humanoid Locomotion & Control Model

以人形机器人基础运动控制为起点，构建分层次、系统化的控制算法体系。融合多模态感知与深度强化学习技术，赋予控制策略本体泛化，技能泛化，环境泛化的能力。逐步实现从“基础运动”到“全身控制”再到“移动操作”的技能跃迁，显著增强机器人在复杂真实场景下的运动，指令跟随与精密操控能力

“一脑多形”全身运动控制策略

运动策略跨本体，跨技能泛化

复杂环境中从零自主站起

提升起身稳定性与抗干扰能力

技能层级进化：从运动到操作

实现从基础运动到全身控制与移动操作的能力跃迁

其他更多

More

具身大模型体系首发InternVLA

具身大模型体系首发InternVLA

三维多模态感知与推理

EmbodiedScan 系列工作：最大规模三维场景多模态数据驱动

InternSR：空间推理工具链支持高质量多元空间推理评测体系

PointLLM 系列工作：国际领先的三维多模态大模型能力

导航智能

InternVLA-N1: 基于第一视角的首个双系统端到端导航大模型

StreamVLN: 流式导航大模型迈向在线推理和长时记忆

NavDP: “一脑多形” 通用导航扩散策略

操作智能

InternVLA-M1

GenManip: 首个LLM驱动的具身推理任务合成和操作评测平台

InstructVLA：多模态推理驱动的操作任务泛化能力增强

操作智能

InternVLA-A1

理解、想象、执行一体化架构

视觉预测指导动作执行，赋能稳定的动态交互

虚实数据混合训练，提升极端场景的泛化能力

人形运动智能

“一脑多形”全身运动控制策略

复杂环境中从零自主站起

技能层级进化：从运动到操作

其他更多

联系我们：

备案信息：