RAYNOVA: 레이 공간에서의 규모-시간적 자기회귀 월드 모델링

RAYNOVA는 레이 공간에서 시공간을 통합하는 4차원 월드 기반 모델로, 명시적인 3D 재구성 과정 없이도 다양한 카메라 설정에서 다중 시점 및 장기간의 영상 생성이 가능합니다.

Yihan Hu, Yichen Xie • May 29, 2026 • 4 min read

월드 기반 모델은 단순히 영상을 생성하는 기술이 아닙니다. 핵심은 현실 세계가 어떻게 변화하는지를 이해하고, 이를 디지털 환경에서 시뮬레이션하는 데 있습니다. 현실 세계는 본질적으로 4D 구조를 갖고 있습니다. 여러 대의 카메라가 시간에 따라 끊임없이 변화하는 동일한 3D 공간을 관측하며, 차량은 이동하고 객체는 회전하거나 위치를 바꿉니다. 또한 차량 플랫폼마다 센서와 카메라의 배치 방식도 서로 다릅니다. 따라서 실용적인 월드 기반 모델은 특정 센서 구성이나 기하학적 가정에 의존하지 않으면서도 이러한 복잡한 공간적·시간적 변화를 통합적으로 이해하고 추론할 수 있어야 합니다.

이번 블로그에서는 공간과 시간을 하나의 표현으로 통합한 4차원 월드 기반 모델인 RAYNOVA를 소개합니다.

RAYNOVA는 순수 자기회귀(autoregressive) 프레임워크를 기반으로 설계되었으며, 공간 추론과 시간 모델링을 별도로 수행하는 대신 두 요소를 동시에 학습합니다. 이를 통해 명시적인 3D 장면 재구성 과정 없이도 다양한 카메라 구성 환경에서 장시간의 다중 시점 영상을 생성할 수 있습니다. 그 결과, 높은 확장성과 유연성을 갖춘 차세대 월드 기반 모델을 구현할 수 있었습니다.

월드 기반 모델이 중요한 이유

기존 영상 생성 모델은 주로 시각적으로 사실적인 영상 시퀀스를 만들어내는 데 초점을 맞춰 왔습니다. 이러한 모델은 일반적으로 고정된 카메라 환경, 제한적인 시점 변화, 그리고 높은 시간적 연속성을 전제로 학습됩니다. 그 결과 뛰어난 품질의 영상을 생성할 수 있지만, 현실 세계의 동작 원리를 이해하는 범용적인 월드 기반 모델을 학습하는 데에는 한계가 있습니다.

반면 월드 기반 모델은 보다 근본적인 문제를 다룹니다. 다양한 카메라 움직임과 시점 변화, 그리고 여러 입력 조건에서도 물리적으로 일관된 다중 시점 장면을 생성하고 시뮬레이션하는 것이 목표입니다. 이러한 접근 방식은 단순히 텍스트를 영상으로 변환하는 기존 생성 모델과는 본질적으로 다른 문제를 해결하고자 합니다.

이러한 목표를 달성하기 위해서는 공간 모델링과 시간 모델링을 별개의 문제로 다루는 기존 방식만으로는 충분하지 않습니다. 현실 세계는 공간과 시간이 순차적으로 작동하는 구조가 아니라, 두 요소가 긴밀하게 결합된 하나의 연속적인 4차원 시공간 속에서 변화하기 때문입니다. 따라서 차세대 월드 기반 모델은 공간과 시간을 독립적인 모듈로 분리하기보다, 하나의 통합된 표현으로 이해하고 학습할 수 있어야 합니다.

기하학의 재고: 명시적 3D 표현의 한계 너머

기존의 많은 월드 기반 모델은 포인트 클라우드, 점유 그리드(Occupancy Grid), 잠재 볼륨(Latent Volume), 3D 가우시안과 같은 명시적인 3D 표현을 구축해 시공간적 일관성을 확보합니다.

이러한 접근 방식은 강력한 기하학적 귀납 편향(geometric inductive bias)을 제공한다는 장점이 있습니다. 특정 환경이나 제한된 영역에서는 높은 성능을 발휘하지만, 카메라 간 시야 중첩에 크게 의존하는 경우가 많고, 깊이 정보·광학 흐름·LiDAR와 같은 추가적인 감독 데이터를 필요로 합니다. 또한 학습 데이터의 범위를 벗어난 새로운 환경이나 센서 구성에 대한 일반화 성능이 제한될 수 있습니다.

RAYNOVA는 이러한 접근과는 다른 방향을 선택했습니다. 특정한 3D 구조를 명시적으로 구축하거나 강제하는 대신, 카메라 레이 공간을 기반으로 토큰의 위치를 표현합니다. 이 방식은 별도의 3D 장면 그래프를 생성하지 않으면서도 서로 다른 스케일, 시점, 그리고 시간 축에 걸친 프레임 간 관계를 자연스럽게 연결할 수 있도록 합니다.

이러한 설계를 통해 RAYNOVA는 다음과 같은 이점을 제공합니다.

학습 과정에서 보지 못한 새로운 카메라 구성에도 효과적으로 일반화
다양한 카메라 회전 및 이동 조건을 유연하게 처리
서로 다른 특성을 가진 이종(heterogeneous) 데이터셋을 통합적으로 학습
기하학적 제약에 의존하기보다 데이터 자체로부터 표현을 학습하는 데이터 중심 접근 방식 유지

결과적으로 RAYNOVA는 명시적인 3D 재구성 없이도 공간적·시간적 일관성을 학습할 수 있으며, 보다 범용적이고 확장 가능한 월드 기반 모델 구축을 가능하게 합니다.

방법론: 레이 기반 4D 상대 위치 임베딩

시점과 시간에 걸쳐 일관된 추론을 수행하려면, 모델은 각 토큰이 공간적·시간적으로 서로 어떤 관계를 맺고 있는지 이해할 수 있어야 합니다. RAYNOVA는 이를 위해 전역 좌표계에 의존하는 대신, 카메라 레이 공간에서의 상대적 위치 정보를 활용합니다.

이 접근 방식은 토큰 간의 관계를 시점, 프레임, 그리고 스케일 전반에 걸쳐 표현하면서도, 수작업으로 설계된 기하학적 편향은 최소화합니다. 다시 말해, 모델이 특정한 3D 구조나 좌표계에 맞춰 학습되는 것이 아니라, 관측된 데이터로부터 공간적·시간적 관계를 직접 학습하도록 설계된 것입니다.

특히 RAYNOVA는 절대 위치가 아닌 상대 위치를 기반으로 정보를 인코딩하기 때문에, 특정 환경이나 세계 구조를 단순히 암기하는 데 의존하지 않습니다. 대신 다양한 시점과 장면 구성 속에서도 일관된 관계를 학습하며, 이를 통해 더욱 강력한 일반화 능력을 확보할 수 있습니다.

이러한 설계 덕분에 RAYNOVA는 이질적인 데이터셋을 효과적으로 통합해 학습할 수 있으며, 학습 과정에서 경험하지 못한 새로운 카메라 구성에도 유연하게 대응할 수 있습니다. 나아가 훈련 데이터의 범위를 넘어서는 외삽(extrapolation)까지 지원하는 확장 가능한 데이터 중심 월드 기반 모델 프레임워크를 제공합니다.

방법론: 이중 인과적 자기회귀

RAYNOVA는 확산 모듈 없이 이산 토큰(discrete token)만을 사용하는 순수 자기회귀 아키텍처를 채택합니다. 이 모델의 가장 큰 특징은 스케일과 시간이라는 두 차원을 동시에 따라 자기회귀 학습을 수행한다는 점입니다.

기존 자기회귀 모델이 이미지 토큰을 하나씩 순차적으로 생성하는 방식에 가까웠다면, RAYNOVA는 먼저 장면의 전체적인 구조를 생성한 뒤 세부 정보를 점진적으로 보완하는 계층적 생성 방식을 사용합니다. 즉, 이미지를 픽셀 단위가 아닌 스케일 단위로 생성하는 ‘다음 스케일 예측’ 전략을 적용합니다. 이를 통해 모델은 먼저 장면의 거시적인 구조를 파악한 후, 점차 세밀한 디테일을 추가해 나갈 수 있습니다.

동시에 RAYNOVA는 시간 축을 따라 프레임 간 자기회귀도 수행합니다. 여기서 중요한 점은 각 카메라를 독립적인 시퀀스로 취급하지 않는다는 것입니다. 또한 카메라 간의 고정된 인접성이나 연결 관계를 강제하지도 않습니다. 대신 현재 프레임을 생성할 때 이전 시점의 모든 카메라 뷰를 함께 참조함으로써, 여러 시점에 걸친 정보를 통합적으로 활용합니다. 이를 통해 다중 뷰 환경에서도 일관된 시간적 추론이 가능해집니다.

스케일 축과 시간 축의 자기회귀를 결합함으로써 RAYNOVA는 4D 시공간 세계에 대한 일관된 생성 순서를 학습합니다. 단일 트랜스포머 아키텍처 안에서 다중 시점 간 일관성을 유지하면서도, 거친 구조에서 세밀한 구조로 점진적으로 영상을 생성할 수 있습니다.

이러한 설계는 긴 길이의 비디오를 효율적으로 생성할 수 있게 해줄 뿐만 아니라, 다양한 프레임 레이트와 카메라 구성에도 유연하게 대응할 수 있는 확장성을 제공합니다.

결과

RAYNOVA는 자율 주행 시나리오에서 기존 월드 기반 모델에 비해 지연 시간을 대폭 개선하면서도 다중 시점 영상 생성 분야에서 최첨단 성능을 발휘합니다. 합성된 다중 시점 이미지와 영상은 다양한 제어 신호를 지원하여 텍스트, 물체, 지도와 같은 입력 조건에 대한 높은 충실도를 갖춘 다양한 합성 데이터를 생성합니다.

유연한 레이 기반 상대 위치 임베딩 덕분에 RAYNOVA는 다양한 카메라 이동, 회전, 시야각(FOV) 변화에 대응하며 새로운 시점을 자연스럽게 생성할 수 있습니다. 또한 학습 과정에서 접하지 못한 새로운 카메라 구성에서도 일관된 장면을 생성할 수 있어, 실제 환경에서 요구되는 높은 일반화 성능을 보여줍니다.

또한 특정 센서 배치나 카메라 구성에 종속되지 않기 때문에, 새로운 차량 플랫폼이나 카메라 시스템에도 유연하게 적용할 수 있습니다. 이는 RAYNOVA가 단순히 학습 데이터를 재현하는 수준을 넘어, 다양한 환경에서 공간적 관계를 이해하고 추론하는 범용적인 월드 기반 모델로 발전할 수 있음을 보여줍니다.

자세한 내용은 프로젝트 웹사이트와 논문, 그리고 CVPR 2026에서 진행될 예정인 발표에서 확인하실 수 있습니다.

Yihan Hu

연구 과학자 매니저

Applied Intuition의 연구 과학자 매니저로, 종단간 자율 주행, 생성 모델, 신경망 기반 계획 수립 분야를 전문으로 함. 베이징대학교에서 물리학 학사 학위를, 캘리포니아대학교 샌디에이고 캠퍼스(UC San Diego)에서 메카트로닉스, 로봇공학 및 자동화 공학 석사 학위를 취득하였으며 CVPR 최우수 논문(Best Paper)의 제1저자이기도 함.

Yichen Xie

연구 인턴

Applied Intuition에서 연구 인턴으로 근무하며 세계 모델링 및 다중 시점 영상 생성 분야를 연구. 캘리포니아 대학교 버클리 캠퍼스에서 박사 학위를, 상하이 교통대학교에서 학사 학위를 취득.

연구 생성형 AI 합성 데이터 컴퓨터 비전 뉴럴 네트워크 기계학습 (ML)센서 시뮬레이션 자율주행

2026.06.03 • 6 min read

NoRD: 추론 없이 주행하는 데이터 효율적 비전-언어-행동 모델

연구데이터 관리

2026.07.09 • 5 min read

실제 도로는 이미 어디에서 사고가 발생하는지를 보여주고 있습니다. 중요한 것은 그 데이터를 얼마나 효과적으로 테스트에 활용하느냐입니다.

자동차안전