[KT AIVLE] IT 트렌드 · DX 스터디 3회차 Open AI Sora

728x90

Sora

SORA는 Opean AI에서 공개한 새로운 기술입니다. ChatGPT와 마찬가지로 텍스트 프롬프트 기술을 기반으로 동작하며 텍스트로 제작하고 싶은 장면을 묘사해서 전달하면 세밀한 퀄리티의 영상으로 생성해줄 수 있습니다!

Opean AI에서 제공하는 샘플 영상을 보겠습니다

출처: Opean AI

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

출처: Open AI

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

Sora의 기술 보고서

시각적 데이터를 패치로 변환

Open AI는 ChatGPT의 방식을 따라가며 Sora를 제작하였습니다. ChatGPT가 다양한 형태의 텍스트를 토큰으로 데이터를 처리하는 것과 비슷하게, Sora는 시각적 데이터를 더 작은 단위인 '패치'로 분할하여 작업을 처리합니다.

시각적 데이터를 패치로 나누는 것은 다양한 해상도, 기간 및 종횡비를 가진 비디오와 이미지를 효율적으로 학습할 수 있도록 합니다. OpenAI는 패치 기반 방식이 다양한 유형의 동영상과 이미지에서 생성 모델을 훈련하는 데 높은 확장성과 효율성을 갖는다고 설명합니다. 이는 데이터를 패치로 분할하여 각 패치에 대한 정보를 모델에 입력하여 학습함으로써 작은 부분의 세부 정보를 처리할 수 있어 다양한 유형의 데이터를 효과적으로 학습할 수 있습니다

비디오 생성을 위한 스케일링 변환기

Sora는 확산 변환기(diffusion transformer) 모델을 기반으로 제작 되었습니다.

확산 변환기
- 기계 학습과 자연어 처리 분야에서 사용되는 모델 아키텍처 중 하나
- 초기에는 자연어 처리 분야에서 널리 사용되었지만, 이후 이미지, 음성 등의 다양한 분야에도 확장되어 사용되고 있음
- 데이터를 만들어내는 모델 중 하나로, data로부터 noise를 조금씩 더해가면서 data를 완전한 noise로 만드는 forward process(diffusion process)와 반대로 noise로부터 조금씩 복원해가면서 data를 만들어내는 reverse process를 활용한다

Sora는 노이즈가 있는 패치를 입력으로 받게 되면 원본의 클린 패치를 예측하도록 훈련됩니다. 위 사진과 같이 노이즈가 가득한 비디오에서 점차 깨끗한 원본의 비디오가 나오게 되는 과정을 말합니다.

이러한 방식은 확산 변환기가 비디오 모델에서도 효과적으로 확장된다는 것을 확인할 수 있으며, 위 예시와 같이 훈련 연산이 증가함에 따라 샘플 품질이 현저히 향상되는 것을 알 수 있습니다.

현재 한계점

복잡한 장면을 정확하게 시뮬레이션 하는 데에는 어려움이 있을 수 있으며 왼쪽과 오른쪽을 혼동하는 경우, 원인과 결과의 특정 사례를 이해하지 못하는 경우 등 문제가 생길 수 있다고 발표했습니다.

ex) 쿠키를 베어 물었지만 나중에 쿠키에 베어 문 흔적이 없는 경우
ex) 러닝머신을 거꾸로 타는 행동

출처: Open AI

악용 예방 안전 조치

OpenAI는 몇가지 안전단계를 거친 후 Sora를 제공하겠다고 발표 했습니다. 잘못된 정보, 혐오 콘텐츠, 편견 등 이러한 분야의 전문가들로 구성된 RED 팀과 적대적 테스트를 진행할 계획입니다. 또한, Sora를 통해 만들어진 모든 비디오가 사용 정책에 준수하는지 확인하는 툴인 이미지 분류기를 개발 중입니다.

기대효과

영화나 광고 등 영상 콘텐츠 업체들에 큰 영향을 미칠 것이고 영상 제작에 대한 기술적인 진입장벽이 낮아져 많은 사람들이 편리하고 빠르게 본인의 창의적인 아이디어나 이야기를 시각적으로 표현할 수 있다는 기대를 해볼 수 있습니다.

또한, 영상 생성 서비스를 위한 스토리보드를 작성하는 영상 스토리보드 작가와 같은 새로운 직업들이 나탈 수 있다고 생각한다.

참고

https://openai.com/sora

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

https://yozm.wishket.com/magazine/detail/2461/

OpenAI의 새로운 무기, 텍스트-비디오 모델 ‘Sora’ | 요즘IT

OpenAI에서 ‘Sora’라는 새로운 비디오 생성 모델을 공개했습니다. 뉴욕타임스는 이들이 생성한 영상 퀄리티를 두고, “마치 할리우드 영화에서 튀어나온 듯한 영상”이라는 평가를 남겼죠. 이러

yozm.wishket.com