팡귄랜드/아이디어 수집

이미지 기반 3d 공간 생성 AI, 지니 2와 월드 모델이 숨긴 '인식'의 혁신

팡귄 2024. 12. 9. 21:13
반응형

단일 이미지를 기반으로 3D 공간을 생성하는 인공지는 시스템 2가지가 최근 공개되었다.

1. 공간지능을 가지는 인공지능 모델
2. LWM이란?
3. 발표된 LWM : 구글의 제니2와 월드랩스의 월드모델

4. 생각해볼만한 장점과 위험성

 

1. 공간지능을 가지는 인공지능 모델

이미지를 기반으로 공간을 생성한다는 점은 게임이나 상호작용이 가능한 가상세계를 만들어내는 혁신적인 방식이지만, 흥미로운 점은 거기에 그치지 않는다.

 '이미지 한 장으로 공간을 만든다니.' 에서 그칠 것이 아니라, 2차원의 이미지에서 3차원 공간을 구성해내기 위해서는 어떤 것을 전제해야하는지 살펴봐야한다.

 월드랩스를 설립한 페이페이 리가 6개월 전, TED 강연에서 15분 간 발표한 내용을 보면 어디서 생각을 전환해야하는지 단서가 보인다.  아래 고양이 사진을 보자.

* 공간 지능을 통해 AI는 실제 세계를 이해합니다. - 페이페이 리

https://www.youtube.com/watch?v=y8NtMZ7VGmU

이미 늦은 화분은 눈에 들어오지도 않는다. 우유 컵이 넘어져 가는 순간에 다급함이 전해진다.

우리 인간은 위의 2차원 이미지를 보고, 3차원 속의 사물들의 구조, 관계와 위치를 파악한다. 그리고 이미지인데도 다급한 마음이 들면서 떨어지는 우유잔을 막아야겠다는 생각이 든다. 우리집이 아닌데도 말이다.

 또 물건이 몇 가지 놓여있거나 가구가 놓인 사진을 준다음, 사진처럼 물건을 놓아보라고 한다면, 어렵지 않게 3차원 공간에 2차원 이미지를 단서로 물건을 놓을 수 있을 것이다.

 이는 우리의 공간지능이 작동했기 때문이다. 페이페이 리는 이러한 점에 주목해서 인공지능이 2차원의 이미지 인식을 통해 보고 학습하는 것에서 나아가, '공간'을 인식함으로써 더 깊이있는 세계를 그리고 여기서 촉발되는 행동을 학습시킬 수 있다고 설명한다. 

인류가 우리 세상을 디지털 형태로 변환하고

그 안의 풍부함과 뉘앙스를 모델링할 수 있는 시대가 열릴 것입니다. 

 

 앞서 고양이사진에서 작동했던 우리의 공간지능을 인공지능 모델이 구현한다면, '인공지능'이 이미지에서 사물들의 구조, 관계와 위치를 파악하게 될 것이다. 이미 페이페이 리가 진행중인 '행동'이라는 프로젝트에서는 생성된 3d공간을 로봇들이 다양한 행동을 시험하고 학습하기 위해 사용하고 있다.

 로봇에게 공간지능이 부여된다면, 즉 얼굴, 사물을 인식하는 차원에서 훨씬 나아가는 것이다. 2차원으로 보여지는 이미지에서도 공간을 인식할 수 있다면, 금방 우리 곁에 다가와 우리들의 일상을 도울 수 있을지도 모른다.

따라서 LWM(large-scale foundation model)을 바라볼때는 공간을 생성한다는 것에 초점만을 두기보다는  공간지능의 잠재력을 생각하며 다가가는 것이 좋을 것이다.  


2. LWM이란?

 LWM(large-scale foundation model)은 그대로 번역합면 대규모 세계 모델이다. LLM은 텍스트 기반의 언어를 이해하고 생성하는 게 초점이라면, LWM은 3차원 세계를 이해하고 생성하며 상호작용할 수 있도록하는 인공지능 모델이다. 

 실제 물리적 환경을 인식하고 모델링하는데에 초점을 두며, 공간지능을 부여에 우리가 살고 있는 현실 세계를 인식, 생성, 추론하기 위한 목표를 가진다.


2. 발표된 LWM : 구글의 제니2와 월드랩스의 월드모델

월드 모델 (https://www.worldlabs.ai/blog)

 월드 모델은 월드랩스에서 지난 2024년 12월 2일 공개되었다. 발표에서는 영화, 게임 등의 물리적 세계를 디지털로 구현하는 데에서 혁신적인 변화가 있을 것임을 강조했다. 블로그에서 직접 구현해볼 수 있다.

https://www.worldlabs.ai/blog

1) 단일 이미지를 3D 모델로 전환할 수 있다.

2) 생성된 3D 모델은 사용자와 상호작용한다. (이동 가능)

3) 장면을 수정할 수 있다. (카메라 깊이감, 줌, 그림자 및 조명 등)

4) 물리법칙이 작용한다.

 

 제니2 (https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/)

 구글에서 지난 2024년 12월 4일 제니2를 발표했다. 월드 모델이 일상생활 공간, 그림 속의 공간을 비중있게 강조한 반면 구글은 게임 속 환경 구현을 적극적으로 소개한다.

대체적으로 월드 모델이 가진 특징과 동일하나, 제니2에서는 금방 게임이 만들어질 것 같은 기능들이 많다.1) 다른 객체와의 상호작용 : 가장 흥미로웠던 점.

물체와 상호작용하는 공간 구현하기
시야에 들어올 때에 공간 구현하기

2) NPC, 조명, 물리학(파도, 중력)구현 캐릭터의 다양한 동작, 빛 반사 구현

3) 실제 이미지를 사용한 모델링 : 사진을 바탕으로 공간을 구현할 수 있따.

 


3. 생각해볼만한 장점

 

 이 모델은 우선 앞서 말했듯이 1) 효율적인 학습을 도울 것이다.

 직접 현실 세계를 경험하지 않고도, 로봇의 행동을 학습시킬 수 있어, 산업현장이나 일상 속 보조 로봇, 자율자동차의 학습을 도울 것이다.

 

2) 디지털 트윈의 구현도 앞당길 수 있다.

 개인의 사적인 공간도 이미지 몇 장으로 구현할 수 있다면, 지금보다 더 다채로운 메타버스를 기대할 수 있을 뿐만 아니라, 가상 공간에 대한 심리적 거리감을 줄이는 효과를 가져올 수 있다고 생각한다.

 가상 공간에 대한 거부감이나 두려움이 있더라도 내 방을 구현해낸다면 그 거리감은 줄어들지도 모른다. 디지털 트윈을 구현하고 말고는 기술의 문제만이 개인의 선택 문제이기도 할 것이다. 이 기술은 어쩌면 디지털 공간에서의 나의 객체를 구현하는 것에 거부감을 줄일 지도 모른다.

물론! 개인의 방까지 구현한다니, 프라이버시 문제를 고려해야 할 것이다.

 

3) 데이터 생성 방식의 변화

 게임은 게임환경을 구축하기위해 대용량의 에셋을 필요로 한다. 게임 환경을 서버에서 클라이언트로 전송하는 대신 클라이언트(게임 사용자)측에서 프롬프트를 바탕으로 직접 생성한다면 네트워크 트래픽을 줄일 수도 있다.  유튜브 등 영상을 송수신할 때는 데이터를 압축할 수 있는 것이 가장 중요한 점인데, 뷰포인트(주요 시각이 머무르는 공간) 외에는 화질을 낮추는 등의 다양한 기법들이 쓰인다. 조금 단순한 가정일 수도 있지만, 게임 환경에 대한 데이터를 일부만 전송할 수 있다면 큰 도움이 되지 않을까 싶다. 다만, 현재 LWM 기술은 10~20초 정도의 세계를 구현할 수 있으므로 장시간 플레이할 수 있는 일관성있는 공간을 구현하기가 어렵다. 

 

반응형