본문 바로가기
법, 용어/용어

인공지능 Sora 란

by 3604 2024. 2. 21.
728x90

출처: 채널온티비(잇츠맨) - IT 테크 콘텐츠 채널 (chontv.com)

Sora의 기술

Sora는 Diffusion Transformer 모델입니다. GPT 모델의 LLM과 방식과 비슷한 기반 하에서 발전되고 있죠. 학습데이터에 차이가 있습니다. LLM은 토큰 이라고 하는 단위로 학습이 진행되는 반면, Sora는 시각적 패치라고 하는 단위로 학습이 이루어집니다. 패치는 시공간을 잘게 쪼갠 조각들이라고 볼 수 있어요. 아래 그림을 참고하시면 됩니다.



 
영상을 잘게 짜른다. 정지 영상의 평면적 구분 뿐 아니라 시간대 별로 변화하는 이미지들을 조각내는데 이런 각 요소들을 패치 (Patch)라고 부른다. Sora의 가장 기본적인 학습단위이다.  (참조 : OpenAI)






작년에 개봉한 <크리에이터> 영화의 한 장면같은 영상을 만들어 냈다. 영화계에서 난리났다는 얘기가 허풍은 아닌 것 같다.  (참조 : OpenAI)








창발 능력 (Emergent Capability)

Sora는 각각의 패치들이 공간적인 의미 뿐 아니라 시간적으로 어떻게 변화되는 지를 학습함으로써 실제의 물리적 세계를 시뮬레이션해 나갑니다. 정말 어마어마한 학습량이 필요할 겁니다. 하지만, 인터넷에는 정말 너무너무 많은 영상 소스들이 넘쳐 납니다. 그리고 OpenAI는 돈도 많습니다. 얼마 전에 샘 알트먼이 AI 반도체 생태계를 새롭게 만들어야 한다며 무려 7조 달러 (한화로 약 9,000조)에 이르는 투자가 필요하다고 주장하기도 했죠. 참고로 2024년도 대한민국 전체의 예산이 660조가 좀 안됩니다. 성공하려면 배포가 이 정도는 되어야 하나 봅니다.



학습이 진행되면서 엉망진창 영상에서 진짜같은 영상으로 변모한다. 드라마틱하다.   (참조 : OpenAI)





이번 Sora의 기술보고서에서 흥미로운 부분은 OpenAI 스스로 얘기하는 창발 능력 Emergent Capability 을 언급한 점입니다. 비디오 모델을 대규모로 훈련을 진행하다 보니 예상치 못했던 능력을 보였다는 점인데요. 3D 특징이나 사물에 대한 구체적인 지시 없이도 실제 물리적인 세상의 측면들을 시뮬레이션하는 영상을 만들어 내더라는 거죠. 역동적인 카메라 움직임을 가진 영상을 보여주는 것도 이런 창발의 가능성을 얘기하고 있는 지점입니다. 어떤 규모를 넘어서면 완전히 새로운 단계의 기술로 성숙되는 것인데, 사실 ChatGPT도 학습량이 어떤 규모를 넘어서면서 얻은 기술적 성취라고 알려지고 있습니다.






일본의 어떤 관광 거리를 3D 로 보여주는 영상. 이런 공간감은 예상치 못한 결과물이라고 얘기한다. 학습의 규모가 어느 이상 넘어서면 '창발'이 발생되는데, 기술이 완전히 새로운 국면의 기능으로 진화하는 것을 의미한다.  (참조 : OpenAI)















AGI를 향한 이정표

OpenAI는 Sora가 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기초를 다지는 역할을 하게 될 것이고, 이런 기능은 인공지능이 AGI (Artificial General Intelligence, 인공 일반 지능)를 달성하기 위한 중요한 이정표가 되리라 주장하고 있어요. 무슨 선언문 같지 않습니까? 불과 몇 년 전만해도 상상도 하지 못했던 일들이 정말 현실로 구현되고 있는 장면을 우리 모두 목도하고 있습니다. 기술이 두렵기도 하고 흥미진진하기도 합니다.
 
 
촌장 드림






헬멧 위에 빨간 털조끼 모자를 쓴 모습이 진짜 '창의적'으로 보이기도 한다. 아무튼 이런 실제적인 느낌의 영상을 AI가 만들어냈다는 점에서 Sora는 정말 놀랍다.  (참조 : OpenAI)



728x90