메타버스 시대를 위한 생성형 AI 기반 디지털 휴먼 기술 동향 및 미래 전망

●

이승욱 || 한국전자통신연구원 책임연구원
김기남 || 한국전자통신연구원 선임기술원
김태준 || 한국전자통신연구원 선임연구원
윤승욱 || 한국전자통신연구원 책임연구원
임성재 || 한국전자통신연구원 책임연구원
황본우 || 한국전자통신연구원 책임연구원

* 본 내용은 이승욱 책임연구원(☎ 042-860-1627, tajinet@etri.re.kr)에게 문의하시기 바랍니다

** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

전 세계적으로 확산된 코로나-19로 인한 메타버스의 인기가 상대적으로 감소하는 추세에 놓여 있다. 최근 기술적인 측면에서의 주요 이슈는 OpenAI의 ChatGPT가 촉발한 생성형 AI 관련된 기술이다. 연산에 특화된 GPU로 인한 계산량의 급증과 구글에서 개발한 트랜스포머 알고리즘 그리고 대량의 학습 데이터로 인한 ChatGPT의 대중화로 디지털 콘텐츠 전 영역에서 생성형 AI 기술 개발이 가속화되고 있다. 특히, 애플이 최근에 발표한 Vision Pro를 시작으로, 메타버스의 재발견과 새로운 패러다임 구축에 대한 기대감이 증폭되고 있다. 이와 함께, 디지털 휴먼은 메타버스 환경 내에서 필수적인 콘텐츠로 각광받고 있으며, ChatGPT의 대화 기능과 결합 시, 더욱 강력한 시너지를 발휘할 것으로 전망된다. 본 고에서는 메타버스 환경 내에서 핵심적으로 활용될 가능성이 있는 디지털 휴먼 서비스와 연관된 생성형 AI 기술의 최신 동향 그리고 그에 따른 전망에 대해 심도 있게 논의하고자 한다.

I. 생성형 AI 기술 개요

생성형 AI란 이용자의 특정 요구사항에 따라 결과물을 생성하는 인공지능의 일종이다. 위키백과의 정의에 따르면 “프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 일종의 인공지능(AI) 시스템”이다[1]. 위키피디아[1]에서 정의한 것은 사용자의 입력을 텍스트 기반의 입력인 ‘프롬프트’로 한정하고, 생성되는 결과물을 다양한 디지털 콘텐츠로 한정한 것이다. 수학적인 모델로 본다면 생성형 AI는 학습 데이터의 확률분포 Pdata(X)가 주어질 때 이를 잘 모사할 수 있는 모델의 확률분포함수 Pmodel(X)를 찾는 것이다. [그림 1]의 왼쪽을 보면 가로 세로의 해상도가 64×64×3 크기인 다양한 컬러 영상이 있다. 이 영상을 임의의 64×64×3차원 공간으로 맵핑하면 각각의 영상은 한 개의 점으로 맵핑될 수 있다. 이렇게 맵핑하는 공간을 X라고 정의하면 [그림 1]의 오른쪽과 같은 검은색 확률밀도함수(probability density function)를 만들 수 있다. x1은 “수염난 남자”이고 x3는 “금발 여자” 형태가 될 수 있다..

<자료> Yunjey Choi, “Generative Adversarial Networks”, slideshare

[그림 1] 생성형 AI의 목표

생성형 AI의 목표는 [그림 1]의 파란색 확률밀도함수(Pdata(X))를 흉내 내는 붉은색 확률밀도함수(Pmodel(X))를 만드는 것이다. 이렇게 Pmodel(X)가 만들어지면, 임의의 X 위치에서 샘플링하여 학습 데이터에 없는 새로운 사람 영상을 생성할 수 있다. 여기서 중요한 것은 “사용자의 의도”에 따른 생성이다. 생성형 AI를 정의할 때 프롬프트 혹은 어떤 형태로의 사용자 의도가 중요하다. 30대 남자를 만든다고 가정할 때 어디서 샘플링 할지가 중요한 포인트가 된다. 또 고려할 것은 편집 이슈다. 예를 들어, 금발의 여자를 만들고 머리 색상을 검은색으로 변경하려는 경우 어떻게 편집하는지를 고려해야 한다. [그림 1]의 왼쪽 영상에서 금발 여성이 있는 공간에서 옆으로 이동한 경우 금발 여성과는 전혀 상관없는 임의의 사람 영상이 된다. 그러나 학습 데이터를 잘 표현하면(Pmodel(X)를 잘 만들면) 한 샘플에서 주변의 다른 위치로 움직였을 때 금발을 검은색 머리로 바꿀 수 있게 된다. 우수한 생성형 AI 모델은 이렇게 사용자의 의도에 따라 쉽게 편집할 수 있어야 한다. 또한, 생성형 AI 모델은 고품질의 결과물을 다양하게 만들 수 있어야 한다. 예를 들어, 개를 만드는 모델의 경우는 만들어진 개의 품질이 좋아야 하며, 다양한 형태의 개를 만들 수 있어야 한다. 영상 생성의 경우 일반적으로 생산적 적대 신경망(Generative Adversarial Networks: GAN)[2]과 잠재공간 확산 모델(stable diffusion)[3]이 고품질의 영상을 생성하며, 확산 모델이 생산적 적대 신경망보다 더 다양한 영상을 생성하는 것으로 알려져 있다. 이는 반복되는 확산 과정에서 다양성이 확보된다고 할 수 있다. 또한, 생성된 결과물의 품질을 평가하는 것은 아주 중요한 이슈이다. 생성형 AI의 경우는 원본 영상(정답 영상)이 없기에 일반적인 PSNR과 같은 품질평가는 적용되지 않는다. 대신 사람에 의해 품질을 평가하는 방법이 많이 사용되는데, 이는 정성적인 평가방법이기에 객관적인 품질 지표가 필요하다. 가장 많이 사용되는 지표는 FID(Frechet Inception Distance)이다. 먼저, Inception 모델을 사용하여 실제 이미지와 생성된 이미지에서 특징을 추출한다. 이후 각 이미지 집합의 특징에 대한 평균 및 공분산 등의 통계적인 특성을 계산한다. 마지막으로 위에서 계산한 평균 및 공분산을 사용하여 실제 이미지와 생성된 이미지 간의 Frechet 거리를 계산한다. 이 거리는 두 정규분포 간의 차이를 측정하는 것이다. FID 값이 낮을수록 두 이미지 집합(실제와 생성된 이미지) 사이의 통계적 차이가 작아진다는 것을 의미하기에 생성형 모델의 품질이 좋다고 할 수 있다.

II. 디지털 휴먼을 위한 생성형 AI 기술 동향

1. 개요

<자료> 한국전자통신연구원 자체 제작

[그림 2] 디지털 휴먼의 기능과 속성

디지털 휴먼은 [그림 2]와 같이 사람의 디지털 버전으로 생각할 수 있으며, 기술적인 측면에서는 사람처럼 보이고, 듣고, 말하고, 생각하는 가상의 디지털 존재이다. 디지털 휴먼 기술을 기능과 속성으로 분류할 수 있다. 속성은 내/외부로 보여지는 데이터(외형과 메디컬 트윈 등에서 사용되는 신체 내부 정보)로 정의할 수 있고, 기능은 인간 뇌의 활동을 모방하는 지능을 포함한 상호작용 및 가시화를 포함할 수 있다. 생성형 AI 기술은 디지털 휴먼의 모든 영역에서 접근 가능하다. 생성형 AI는 기존의 전통적인 CG/Vision 기술로 수행하던 모든 과업을 대신할 수 있는 기술이기에 디지털 휴먼의 모든 분야에 적용될 수 있다.
본 고에서는 다음과 같은 분류로 기술 동향을 서술하고자 한다.

- Transformer[4]로 대표되는 언어모델: 디지털 휴먼의 추론, 반응/상호작용(음성)과 관련된 역할 담당
- GAN, diffusion 등의 영상 생성 모델: 디지털 휴먼의 속성 가시화 역할 담당
- 영역 분리 등의 영상 인식 모델: 디지털 휴먼의 오감 센싱 역할 담당
- 모션 생성 기술: 디지털 휴먼의 움직임 가시화 역할 담당

2. 언어 생성 기술 언어가 인간의 지능 발달에 미치는 영향력은 아주 중요하다. 최근의 언어모델은 사람이 구별할 수 없는 수준에 이르렀으며, ChatGPT 4.0의 경우는 아주 뛰어난 추론 능력을 보여주고 있다. 초기 언어모델은 RNN[5], LSTM[6]이었다. 이후 고정된 크기의 컨텍스트 벡터(context vector)를 사용하는 Seq2Seq[7]로 발전되었다. [그림 3]과 같이 “I Love You”라는 문장의 정보가 단일 컨텍스트 벡터 C에 포함되어 있고, 이를 하나씩 디코딩하여 “나는 너를..”을 복원한다. 이후 단일 컨텍스트 벡터 사용의 한계를 극복하기 위해 각각의 단어 간의 연관관계를 내적으로 정의하는 Attention[8]이라는 알고리즘이 도입되었다. 최근 구글은 대형 언어모델의 핵심이 되는 트랜스포머 알고리즘을 출시하였다.

<자료> “Introduction to Recurrent Neural Networks and Attention”, https://www.youtube.com/watch?v=pjw7yfpk2jc

[그림 3] 고정된 크기의 컨텍스트 벡터를 사용하는 Seq2Seq 방법의 한계

트랜스포머는 self-attention(입력 시퀀스의 모든 원소들 간의 상호작용을 고려하여 각 원소에 가중치를 부여), positional encoding(입력 데이터의 위치 정보를 인코딩하여 모델에 제공), 스택 구조(여러 개의 인코더와 디코더 층을 스택으로 적층), 멀티-헤드 어텐션(여러 개의 어텐션 분포를 학습하여 다양한 특징을 동시 취득) 및 정규화를 통해 높은 병렬화와 함께 문장의 장거리 의존성을 효과적으로 학습하는 방법을 제공하였다. ChatGPT는 기본적으로 트랜스포머와 RLHF(Reinforcement Learning from Human Feedback)의 방식으로 자연스러운 문장 생성이 가능하게 하였고, 이를 통해 디지털 휴먼은 사람처럼 대화할 수 있게 되었다. 최근에는 파인 튜닝 혹은 프롬프트 확장 등의 방법을 통해 사람과 같은 인격을 부여하기도 한다. 이 경우 나만의 디지털 휴먼을 생성할 수도 있다.

3. 영상 생성 기술 일반적으로 그래픽스, 인공지능 기술 등을 이용하여 3D 디지털 휴먼을 만들 수 있다. 이렇게 만들어진 3D 모델을 유니티, 언리얼 등의 렌더링 엔진을 이용하여 가시화 한다. 즉, 3D를 만들고 이를 2D로 렌더링하는 방법으로 디지털 휴먼을 표현한다. 흥미로운 점은 사용자에게 최종적으로 제시되는 모습은 2D 영상이라는 것이다. 다른 측면으로 생각하면, 3D를 만들지 않고 2D 영상을 직접 생성하면 3D 모델은 필요하지 않게 된다. 최근의 영상/동영상을 만드는 생성형 AI 기술은 사용자의 자세제어 정보를 받아 직접 디지털 휴먼 영상을 생성한다.
2014년에 발표된 GAN은 생성자(generator)와 판별자(discriminator) 두 개의 모델이 상호 보완적으로 학습된다. 생성자는 판별자를 속이려고 더 나은 가짜 데이터를 생성하는 방향으로 학습되며, 판별자는 생성자가 만든 데이터와 실제 데이터를 정확히 구분하는 방향으로 학습된다. 최종 학습이 종료되면, 생성자에 임의의 데이터를 입력하여 해당 영상을 생성한다.
2014~2016년에는 작은 크기의 영상을 생성하는 것이 목표였고, 이때의 대표적인 알고리즘은 ACGAN 등이 있었다. 2017~2018년에는 고해상도의 영상을 만들기 위해 Progressive GAN, BigGAN 등이 개발되었고, 이때 영상의 스타일을 학습 및 제어할 수 있는 StyleGAN이 개발되었다. 이후 2019~2020년에는 실제 응용에 적용할 수 있도록 적은 데이터를 사용하는 방법 등에 대한 연구가 진행되었으며, StyleGAN2, 판별자의 과적합을 방지하는 differentiable augmentation 기술 등이 개발되었다. 이후 GAN도 지속적으로 개발되었으나, 2021년 디퓨전(diffusion) 모델의 발표로 최근의 추세는 디퓨전 모델 위주의 연구가 대세이다.
VAE(Variable Auto-Encoder)[10]는 입력 데이터를 받아 그 데이터의 잠재적인 확률적 표현(정규분포의 평균과 분산)으로 맵핑하는 인코더와 인코더에서 얻은 잠재적 표현을 사용하여 원본 데이터로 재구성하는 디코더 부분으로 구성된다. [그림 4]와 같이 입력 데이터 x를 인코딩하여 잠재 공간의 확률 분포(z)로 만들고, 이를 디코딩하여 입력과 최대한 같은 출력 데이터 x’를 생성한다. 주요한 특징으로 VAE는 잠재 공간이 부드럽게 구성된다. 이로 인해 두 점 사이의 경로를 따라 샘플링할 때 다른 특성을 가지는 영상으로 변경이 가능하다. [그림 1]과 같이 일반적으로 맵핑한 경우 한 샘플에서 다른 샘플로 이동하면 전혀 다른 특성을 가지는 샘플이 생성되지만 VAE의 경우는 원하는 형태의 제어가 가능하다. 이 VAE는 프롬프트 기반으로 영상을 생성하는 기술에 활용된다.

<자료> “Introduction to autoencoders”, https://atcold.github.io/pytorch-Deep-Learning/en/week07/07-3/ 재구성

[그림 4] 잠재 공간에서 영상 생성이 가능한 VAE

<자료> Jonathan H, et. Al., “Denoising Diffusion Probabilistic Models”, arXiv:2006.11239v2

[그림 5] 디퓨전 과정과 디노이징 과정으로 이루어진 디퓨전 알고리즘

디퓨전은 [그림 5]와 같이 원본 영상에 잡음을 단계적으로 추가하여 잡음이 섞인 영상을 만드는 디퓨젼 과정과 잡음을 제거하여 원본 영상을 만드는 디노이징 과정으로 이루어진다. X0는 초기 입력이며, Xt는 t번 잡음이 더해진 영상이다. 잡음을 더하는 과정은 단순히 수학적으로 계산되는 과정이며, 디노이징 과정이 학습을 통해 재현된다.
디퓨전은 VAE와 밀접하게 연관되어 있다. [그림 6]을 보면 디퓨전을 1단계만 진행하면 VAE와 같은 과정임을 알 수 있다. 디퓨전은 “Markov Chain Process for Multiple Latent Variable”로 정의될 수 있다. [그림 6]에서 파란색 사각형이 VAE와 같다. 입력 X0에 노이즈를 더하여 잠재공간의 값 z1을 만들고(인코더), 이를 디노이징하여 원본과 최대한 비슷한 X0’을 복원한다(디코더). 이런 과정을 T번 반복하는 것이 디퓨전이다. 따라서 학습하는 과정과 손실함수 등은 VAE와 비슷하게 정의된다. 이렇게 순차적으로 잡음을 추가하고 제거하는 과정을 DDPM(Denoising Diffusion Probabilistic Models)이라 한다. 이 경우 Markov Chain에 따라 잡음 추가/제거 작업을 진행해야 하며, 매 단계에서 모델을 학습하고 샘플링하기에 시간이 오래 걸린다. DDIM(Denoising Diffusion Implicit Models)은 Xt가 이전의 Xt-1과 X0에 의해 결정되는 Non-Markov Chain 프로세스이다. 이렇게 함으로 빠른 영상 생성이 가능하다.

<자료> 한국전자통신연구원 자체 제작

[그림 6] 디퓨전과 VAE 과정 비교

디퓨전은 좋은 성능을 보임에도 불구하고 과다한 계산량으로 실제 적용에 어려움을 겪고 있었다. 계산량이 많기에 다양한 영상을 동시에 학습할 수 없어서 다양한 영상을 생성하는데 어려움을 겪었다. 그러나 Latent Diffusion[11] 모델의 개발에 따라 계산량이 극적으로 감소하게 되고, 이에 따라 다양한 학습 데이터를 적용할 수 있게 되어 생성되는 영상의 다양성도 증가되었다. Latent Diffusion은 기존의 픽셀 공간에서 영상을 확장시키는 것이 아니라, 잠재공간에서 확산시키는 모델로 픽셀공간 대비 잠재공간의 규모가 적기에 실제 디퓨전 및 디노이징 시간도 적게 소요되는 장점이 있다. Latent Diffusion을 구현하여 오픈소스로 공개한 것이 최근의 가장 주요한 기술인 Stable Diffusion이다. Stable Diffusion은 2022년 Stablity.AI의 컴퓨팅 환경을 이용하여 Runway가 58억 장의 텍스트-이미지쌍을 CLIP[12]으로 학습하여 만든 모델이다. Stable Diffusion은 크게 3가지 영역으로 구성된다. 먼저, 사용자의 텍스트 입력을 CLIP을 통해 인코딩한다. 네트워크 추론 모델은 언어를 이해할 수 없기 때문에 텍스트 인코딩을 통해 숫자로 변경한다. 이렇게 임베딩된 값은 두 번째로[그림 7]의 녹색 부분에 의해 처리된다. 이 또한 U-net의 형태인데, 텍스트 임베딩에 따라 조건화되어 여러 번 반복하여 디노이징하는 과정을 거치게 된다. 이때 어텐션 등 다양한 기술이 적용된다. 이 과정을 마치면 잠재공간에서의 값이 복원되고, 이 값은 마지막으로 [그림 7]의 붉은색처럼 VAE의 디코더에 입력되어 최종 영상을 출력하게 된다. 이때 붉은색은 픽셀 영역에서 작업되는 과정이다. 앞서 설명한 것과 같이 Latent Diffusion(Stable Diffusion) 모델에서는 U-Net에서 학습되고 이를 바탕으로 생성된 값 자체가 디퓨전 모델처럼 영상 픽셀값이 아니고, VAE에 의해 인코딩된 잠재 벡터를 U-Net에 학습했기 때문에 U-Net에서 복원되어 나온 저해상도의 잠재 벡터를 VAE 디코더로 디코딩하여 고해상도의 그림으로 만들어 주는 것이다.

<자료> Robin Rombach, et. al., “High-Resolution Image Synthesis with Latent Diffusion Models”, arXiv:2112.10752v2

[그림 7] 잠재 공간에서의 디퓨전 프로세스

<자료> Lvmin Zhang, et. al, “Adding Conditional Control to Text-to-Image Diffusion Models”, arXiv:2302.05543v1

[그림 8] ControlNet: 프롬프트와 간단한 컨트롤 입력을 통한 영상 생성

Stable Diffusion이 오픈소스로 공개된 이후 많은 플러그인들이 개발되었으며, 그 중의 백미는 ControlNet[13]이라 할 수 있다. ControlNet은 복잡한 모델을 제어하는 신경망 구조로 사용자가 원하는 추가 입력 조건을 받아들여 모델의 기능을 확장하는 것이다. 예를 들어, [그림 8]과 같이 프롬프트 입력 외에 간단한 사용자 컨트롤 정보를 입력하여 영상을 생성하는 것이다. 사용되는 컨트롤에는 깊이정보, 스케치 정보, 관절정보 등이 있다.
정지 영상을 생성하는 기술을 기반으로 Runway의 Gen-1, Gen-2, 구글의 Phenaki, Dreamix, 메타의 Make-a-video 등 다양한 디지털 휴먼 비디오를 생성하는 기술이 개발되고 있다.

4. 영상 인식 기술 메타는 영역분할의 파운데이션 모델을 목표로 임의의 영상을 영역 분리할 수 있는 SAM(Segment Anything model)[14]을 개발하였다. SAM은 점(point), 박스(box) 그리고 텍스트(text) 입력을 통해 임의의 영상에 대한 영역 분할이 가능한 모델이며, 고해상도 영상으로 추가 학습한 HQ-SAM, 동영상 트래킹에 특화된 TAM(Track Anything Model) 모델로 발전한다. 또한, Stable Diffusion과 결합하여 StableSAM이라는 모델도 만들어진다. [그림 9]와 같이 SAM은 벤치의 세밀한 등받이 부분은 나눌 수 없으나, HQ-SAM은 좀 더 세밀하게 분해하는 것을 볼 수 있다.

<자료> Lei Ke, et. al, “Segment Anything in High Quality”, arXiv:2306.01567

[그림 9] SAM과 HQ-SAM의 비교

5. 기타 기술 MotionGPT[15]는 프롬프트 입력을 기반으로 인간의 모션 정보를 생성하는 것이다. Text-to-Motion은 텍스트 입력으로 인간 모션을 생성하는 것이고, Motion-to-Text는 모션 영상을 텍스트로 변경하는 것이며, Text-to-Text는 모션에 관련된 문장 생성기이고, Motion Complete는 주어진 모션 영상의 뒷부분을 생성하는 기술이다.
메타버스는 다양한 형태의 콘텐츠 에셋으로 이루어진 가상세계다. 생성형 AI를 통해 사실적이고 실제와 같은 ‘풍경’, ‘건물’ 및 ‘차량’을 만들거나 실사와 동일한 수준의 사용자 ‘아바타’, 복잡한 행동과 성격을 가진 독특하고 역동적인 ‘NPC’(Non-Player Character)를 생성할 수 있게 되었다. 보즈워스메타 CTO는 “컴퓨터그래픽에 관한 지식이 없어도 3차원 공간을 구축하고, 메타버스 콘텐츠 생산에 많은 사람이 접근할 것”이라고 말했는데, 이는 생성형 AI의 도움으로 가능하다.

<자료> Roblox, “Generative AI on Roblox”

[그림 10] 로블록의 코드 어시스트와 재질 생성기

로블록스는 [그림 10]과 같이 코드 초안을 작성하면 동작 방법을 자연어로 입력하고 나머지 코드를 자동으로 생성하는 코드어시스트와 텍스트 기반의 3D 콘텐츠 제작이 가능한 재질 생성기(material generator)를 출시하였다. 이들을 이용하면 3D 자동차를 만들어 하늘을 날게 하거나, 자동차의 색상을 바꿀 수 있다.

III. 디지털 휴먼과 생성형 AI 기술의 미래

컴퓨팅 성능의 발전, 학습 데이터의 발전, 알고리즘의 발전 등에 의해 미래의 디지털 휴먼은 현재보다 모든 면에서 성능이 향상될 것이다. 메타에서 개발 중인 기술 두 가지를 보면 생성형 AI 기술의 미래를 예측할 수 있다.

<자료> MetaAI, “ImageBind” & Lili Yu, et. al, “MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers”, arXiv:2305.07185v2

[그림 11] 메타의 ImageBind와 MEGABYTE

메타는 ImageBind를 통해 다양한 멀티모달 데이터를 한 번에 학습한다. [그림 11]의 좌측 영상과 같이 영상-Text-audio-IMU-heat map-depth를 한 번에 학습한다. 말하는 디지털 휴먼을 생성하려면, 현재로는 음성 네트워크 모델, 디지털 휴먼 생성 모델 두 개를 이용하여 추론해야 하는데, 만약에 텍스트-영상-오디오가 한 번에 학습되면, 한 개의 모델로 말하는 디지털 휴먼을 만들 수 있으며, 이로 인한 성능 향상을 기대할 수 있을 것이다. 또한, 메타는 기존 트랜스포머의 문제점을 극복하기 위해 [그림 11]의 우측과 같은 MEGABYTE 구조를 제안하였다. 기존에는 시퀀스 처리 전에 토큰화해야 하고, self-attention의 한계 상 아주 긴 토큰의 처리가 어려우며, 토큰을 순차적으로 처리함에 따른 속도 저하가 생겼다. MEGABYTE는 시퀀스를 패치로 분리하고 패치별 병렬처리를 지원하여 대규모(100만 단위) 토큰 처리를 가능하게 하였다. ImageBind와 MEGABYTE 기술의 발전이 가속화되면, 단일 모델로 수많은 토큰을 처리하여 오디오/영상/모션 등을 동시에 생성하는 완전한 디지털 휴먼이 등장할 수도 있다.

Ⅳ. 결론

메타버스 환경에서의 디지털 휴먼 연구는 코로나19 이후의 전반적인 메타버스 인기 감소와는 달리 더욱 활발하게 진행되고 있다. OpenAI의 ChatGPT를 포함하여 생성형 AI 기술의 발전은 메타버스 환경에 사용자가 디지털 콘텐츠를 쉽게 만드는 방법론을 제공하고, 이를 통해 크리에이터 이코노미(creator economy)가 성장할 수 있음을 알려준다. 본 고에서는 메타버스 환경에서 생성형 AI 기술을 이용한 디지털 휴먼의 현재 기술과 미래 전망에 대해 논의하였다. 근 미래는 컴퓨팅 파워의 증가와 현재 개발되는 다양한 알고리즘의 고도화로 정말로 사람처럼 보이고, 말하고, 생각하고, 반응하는 완전한 디지털 휴먼이 개발될 것으로 기대된다. 이렇게 개발된 디지털 휴먼은 메타버스용 하드웨어 기술 등과 결합하여 영화 ‘레디 플레이어원’과 같은 거대한 메타버스 핵심기술이 될 것으로 기대된다.

[ 참고문헌 ]

[1] 위키피디아, https://ko.wikipedia.org/wiki/생성형_인공지능
[2] Ian J. Goodfellow, et. al., “Generative Adversarial Networks”, arXiv:1406.2661v1
[3] Prafulla Dhariwal, et. al., “Diffusion Models Beat GANs on Image Synthesis”, NeurIPS 2021.
[4] Vaswani et al. “Attention Is All You Need,” Advances in neural information processing systems, 2017, pp.5998-6008.
[5] D. Rumelhart, et. al., “Learning representations by back-propagating errors”, Nature, Vol.323, 1986.
[6] Sepp Hochreiter, et. al., “Long Short-term memory”, Neural Computation 9, 1735-1780, 1997.
[7] Ilya Sutskever, et. al., “Sequence to Sequence Learning with Neural Networks”, In Advances in Neural Information Processing Systems 27, NIPS 2014.
[8] Bahdanau, D, et. al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR 2015.
[9] 이승욱 외, “인공지능을 이용한 3D 콘텐츠 기술 동향 및 향후 전망”, ETRI, 전자통신동향분석 34권 제4호 2019. 8.
[10] Diederik P Kingma, et. al., “Auto-Encoding Variational Bayes”, arXiv:1312.6114v11
[11] R. Rombach, A. Blattmann, D. Lorenz, P. Esser and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models”, 13 Apr. 2022.
[12] Alec Radford, et. al., “Learning Transferable Visual Models From Natural Language Supervision”, arXiv:2103.00020v1
[13] Lvmin Zhang, et. al., “Adding conditional control to text-to-image diffusion models”, arXiv:2302.05543v1
[14] Alexander Kirillov, et. al., “Segment Anything”, arXiv:2304.02643v1.
[15] Biao Jiang, et. al, “MotionGPT: Human Motion as a Foreign Language”, arXiv:2306.14795v2

* 본 자료는 공공누리 제2유형 이용조건에 따라 정보통신기획평가원의 자료를 활용하여 제작되었습니다.