표현의 기술: 생성형 인공지능 기술


김말희  ||  한국전자통신연구원 책임연구원
허태욱  ||  한국전자통신연구원 책임연구원
이일우  ||  한국전자통신연구원 책임연구원


*   본 내용은 김말희 책임연구원(☎ 042-860-1590, mariekim@etrii.re.kr)에게 문의하시기 바랍니다

**   본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

I. 서론

 언어, 소리, 이미지, 행위 등은 타자와의 소통을 위한 수단이다. 이러한 수단은 문학, 음악, 미술, 무용, 이들을 종합하는 종합예술의 형태이거나 혹은 간단한 채팅의 형태로 표현된다. 이러한 표현 능력은 주체의 경험과 지식 그리고 상상을 표현한다. 표현 기술은 타자와 교감을 형성하고 사회를 만들어가는 수단으로써 호모 사피엔스가 가진 강력한 무기로 여겨져 왔다. 그간 인간 고유의 표현 기술이던 언어, 음악, 회화, 영상 등의 분야에서 인공지능 기술이 크게 활약하기 시작했고, 그 핵심 기술이 생성형 인공지능(Generative Artificial Intelligence: GenAI) 기술이다.

<자료> New York Times, “An A.I.-Generated Picture Won an Art Prize. Artists Aren’t Happy”, 2022.

[그림 1] 인공지능을 이용하여 창작한 작품 “Theatre D’opera Spatial”


 2017년, 오바마의 딥페이크 동영상이 사회적 논쟁거리가 되면서 생성형 인공지능 기술이 주목을 받았었다. 컴퓨터 비전 기술은 컴퓨터를 이용해서 인간의 시각 지능 혹은 시각적 표현 기능을 시뮬레이션하는 기술이다[1]. 비전 분야 생성형 인공지능 핵심 기술은 GAN(Generative Adversarial Network)이다[2]. GAN을 이용해서 머리 스타일과 옷의 패턴을 바꾼다거나 사진 일부를 보정하거나 해상도를 높이는 기술들이 등장했다[1]. 이뿐 아니라, artificial intelligence art[3]라는 분야가 자리를 잡으면서 인공지능을 이용한 예술 활동들이 본격화되기 시작했다. 2018년 GAN 기술을 이용한 초상화 “Edmond De Belamy”가 크리스티 뉴욕 경매에서 43만 2,500달러에 판매되었고[4], 로비 배럿의 인공지능 누드화[5]가 예술계의 큰 화제가 되었다. 2022년, 컴퓨터 비전 기술이 가져온 충격보다 강력한 사회적 충격을 가져온 것이 OpenAI의 ChatGPT(Chat Generative Pre-trained Transformer)이다[6]. 언어 분야 생성형 인공지능 기술로서 가벼운 채팅뿐 아니라 다양한 전문 분야의 지식에 대한 질의응답이 가능하고 프로그램 작성도 가능하다. Google도 2023년 바드(bard)를 출시했다[7]. ChatGPT, 바드 모두 언어 분야 생성형 인공지능 서비스로 일반 대중이 쉽게 사용해 볼 수 있다. 메타도 2023년 LLaMA(Large Language Model for Meta AI)를 발표했다.
 그 외에도 텍스트를 입력하면 그림을 그려주는 DALL·E 2[8],[9]와 Midjourney도 출시되었다. 2022년 콜로라도주 박람회의 연례 예술 대회에서 미드저니를 이용한 “Theatre D’opera Spatial”이라는 작품이 우승함으로써 예술가들의 우려를 사고 있다[10]([그림 1] 참조). 텍스트를 입력하면 음악을 만들어주는 Google의 MusicLM[11] 기술도 논문이 발표되면서 큰 주목을 받고 있다. MusicLM의 경우 저작권 문제로 아직 상업적인 서비스를 제공하고 있지 않다. 이외에도 텍스트나 이미지를 기반으로 동영상을 제작하는 인공지능 서비스도 Prompt, Pictory AI 등 다수 출시되었다.
 본 고에서는 다양한 매체의 콘텐츠를 만들어내는 생성형 인공지능 기술의 개념, 기술 동향 그리고 기술의 전망과 사회적 이슈에 대해서 살펴보고자 한다.

 


II. 생성형 인공지능 기술 개념

 인공지능 기술 동향[12]에서는 비즈니스 생태계에서 주목받을 인공지능 기술로 생성형 인공지능 기술에 대해서 언급했다. 바야흐로, 2023년을 기준으로 생성형 인공지능 기술은 비전 및 언어 분야에 있어서 기술적 특이점(technological singularity)을 넘어 사회적 큰 변혁을 주도할 기술로 자리매김하고 있다. 본 절에서는 생성형 인공지능 기술의 기본 개념을 살펴보고자 한다.

1. 생성형 인공지능 정의  Gartner[13]는 생성형 인공지능이란 입력 데이터들의 표현을 학습하고 이를 활용하여 원본 데이터와 비슷하지만 새로운 콘텐츠(텍스트, 이미지, 비디오, 오디오, 컴퓨터 코드, 합성 데이터, 워크플로우 및 물리적인 객체 모델 등)를 생성하는 인공지능 기술이라고 정의했다. IBM[14]은 생성형 인공지능이란 학습된 데이터를 기반으로 고품질 텍스트, 이미지 및 기타 콘텐츠를 생성할 수 있는 딥러닝 모델이라고 정의했다. 즉, 생성형 인공지능이란 딥러닝을 포함한 인공지능 기술을 이용해서 새로운 콘텐츠를 생성하는 인공지능 기술 분야로서 언어, 비전을 포함한 컴퓨터로 처리할 수 있는 다양한 분야의 콘텐츠를 생성하는 것을 지칭한다.

2. 판별 모델과 생성 모델의 구분

<자료> Analytics Vidhya, “2023’s Best Guide to Discriminative & Generative Machine Learning Models”, 2023.

[그림 2] 기계학습의 두 가지 모델: 판별 모델, 생성 모델

 기계학습은 학습에 활용된 데이터의 패턴을 학습하여 추론 시 사용자가 원하는 결과를 제공하는 기술이다. 기계학습에 활용되는 모델은 크게 판별 모델(discriminative model)과 생성 모델(generative model)로 구분된다. 판별 모델은 분류(classification) 혹은 회귀(regression) 문제에 활용된다. 이에 반해 생성 모델은 대상이 되는 데이터 모델의 분포를 학습하여 입력 데이터와 유사한 새로운 데이터를 생성한다. 즉, ‘이것이냐, 얼마냐’를 다루는 모델이 판별 모델이라면, ‘이걸 만들어 줘’를 다루는 모델이 생성 모델이다. [그림 2]는 판별 모델과 생성 모델의 기본적 차이점을 설명해준다.
 판별 모델은 판별의 기준이 되는 구분선을 학습한다. 동물을 구분하는 것과 같은 분류의 문제라면 각 동물을 구별할 수 있는 구분선을 학습하고, 주식시세나 부동산 가격을 예측한다면 각 시세를 예측할 수 있는 추세선을 학습한다. 분류 모델과 회귀 모델의 기본적인 차이는 분류 모델은 분류하고자 하는 카테고리 범주 내의 이산적인 값(discrete value)을 y로 출력하고, 회귀 모델은 예측하고자 하는 값의 범주 내 연속적인 값(continuous value)을 y로 출력한다는 점이다. 반면, 생성 모델은 대상이 되는 부류에 포함되는 데이터들의 분포를 학습한다. 고양이가 대상이라면 고양이 사진들을 입력으로 입력 데이터들의 분포를 학습하고, 해당 분포에서 픽셀값들을 샘플링함으로써 새로운 고양이 이미지를 생성한다.

3. 판별 모델  판별 모델에 대한 이해를 돕기 위해서 기본이 되는 회귀 모델을 생각해 볼 수 있다. 집 평수(x) 등을 조건으로 집값(y)을 예측하고 싶다고 하자. 가장 기본적인 수학식으로 표현하면, y = wx+b인 함수를 학습하는 것이 모델 학습의 목적이 된다. 수많은 학습 데이터(x, y)를 이용하여 회귀 모델은 매개변수 w, b를 학습하게 된다. 이후 집값을 알고 싶은 집의 (x)를 학습된 모델의 입력으로 넣어주면 해당 집값(y)을 예측할 수 있다. 실제로 활용되는 회귀 모델의 수학식은 더 복잡하며 비선형 함수를 사용하는 경우가 일반적이다.

<자료> Medium, Vanilla NN vs CNN, 2022.

[그림 3] CNN의 기본 구조 예

 분류 모델의 경우 알고자 하는 y 가 분류하고자 하는 카테고리 중의 하나의 값(레이블, 클래스)을 갖게 된다. 가장 대표적인 이미지 분류 모델인 CNN(Convolutional Neural Network)의 후반부 계층을 보게 되면([그림 3] 참조), 분류 카테고리 수만큼의 계산값을 추정하고, 이 계산값 중 가장 큰 값(argmax)을 갖는 카테고리를 y로 분류하게 된다. [그림 3]은 입력값을 숫자 0에서 9까지 10개 카테고리로 이미지를 분류하는 예제이다. CNN 모델의 경우 입력 값을 기반으로 각 층에서 입력값을 이용해서 활성 함수(activation function)를 계산한다. 마지막 층에서는 0에서 9의 10개 카테고리에 해당하는 값을 동시에 계산한다. 이 값을 근거로 하나의 숫자를 결정하게 되는데 10개 값에 대해서 소프트맥스(softmax) 함수를 취하고 결과값에 argmax를 취해서 결과값을 y로 출력한다. 매개변수 학습을 위해서 각 층의 뉴런에서는 비선형 함수인 활성 함수가 이용되는데 함수의 특성과 복잡성을 제외하면 앞선 회귀 모델의 연산이 딥러닝 모델 층수만큼 발생하는 것과 유사하다.

4. 생성 모델  대표적인 생성 모델로 이미지 데이터 생성에 주로 활용되는 GAN과 언어 데이터 생성에 주로 활용되는 트랜스포머(transformer)를 살펴보자. GAN 내부에는 생성자 모델(generator)과 구분자(discriminator) 모델 두 가지 딥러닝 모델을 가진다([그림 4] 참조)[17]. 생성자의 역할은 실제 이미지로 착각되도록 정교한 이미지를 생성하는 것이고, 구분자의 역할은 이미지를 보고 생성자에 의해 만들어진 이미지인지 실제 이미지인지 구분하는 것이다. 생성자가 생성한 이미지를 구분자가 잘 구분하지 못하도록 두 모델을 같이 학습하게 되고, 학습이 잘 되었을 때 생성자가 생성 모델의 역할을 하게 된다. 구분자의 경우에는 입력값이 실제 데이터인지 생성된 데이터인지를 구분하는 역할을 하게 되는데, 앞서 살펴본 판별 모델에서 이진 분류기라고 보면 된다.

<자료> Tensorflow, DCGAN, 2023.

[그림 4] GAN 기본 구조

 생성자는 잠재 공간 벡터 z를 이미지 데이터 공간으로 프로젝션하는 역할을 하게 되는데 DCGAN(Deep Convolution GAN)에서는 합성곱 신경망(convolutional-transpose)을 사용했다. 생성자 혹은 생성 모델에 sequence-to-sequence 모델을 많이 사용하기도 하는데 이 모델은 기본적으로 회귀나 분류를 맥락기반 연속적으로 수행한다고 보면 된다([그림 5(a)] 참조). 앞단의 시퀀스는 입력값들의 패턴을 추출하는 인코더 역할을, 뒷단의 시퀀스는 추출된 패턴으로부터 데이터를 생성하는 디코더의 역할을 한다. 인코더나 디코더의 실제 코드를 보면 판별 모델의 기본적인 메커니즘을 복잡하고 복합적(gates)으로 사용하는 것을 확인할 수 있다.

<자료> (a) Analytics Vidhya, “A Simple Introduction to Sequence to Sequence Models”, 2020.
(b) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, “Attention is all you need”, NIPS, 2017.

[그림 5] Sequence-to-sequence 모델과 트랜스포머 모델 개요

 언어 모델에서 많이 사용되는 트랜스포머 모델은 일련의 문장 속 단어와 같은 순차 데이터 간의 관계 정보를 추출하여 맥락과 의미를 학습하는 인코더-디코더 기반의 신경망으로 어텐션 혹은 셀프 어텐션 기법을 활용한다. Sequence-to-sequence 모델과 유사하지만, 반복 기법(recurrent)은 활용하지 않고 어텐션 층을 갖는 인코더와 디코더를 층을 쌓아서 사용한다는 점이 다르다. [그림 5(b)]는 2개 서브층으로 구성된 인코더와 3개 서브층으로 구성된 디코더로 구성된 트랜스포머 구조이다. 아이디어 발제 논문에서는 인코더와 디코더를 다층으로 쌓아서 이용했다. 트랜스포머 모델은 인코더-디코더의 구조를 동일하게 이용하지만, 반복기법 대신 다층을 활용함으로써 병렬처리 관점에서 sequence-to-sequence 모델보다 우수하다. 디코더의 마지막 부분을 보면 분류 모델과 같이 소프트맥스 연산을 이용한다. 생성 모델의 기본 블록으로 판별 모델 방식을 활용한다고 보면 된다. 차이는 출력값이 하나가 아니라 문장을 구성하는 일련의 단어들의 모음이라는 점이다.

 


III. 생성형 인공지능 기술 동향

 인공지능 기술의 민주화(AI democratization)를 실현한 ChatGPT와 Bard의 등장으로 인터넷 사용자라면 누구나 인공지능 기술 수준을 체감하고 활용할 수 있게 되었다. 이제는 기술이 우리 사회를 어떻게 변화시킬 것인지에 대해서 진지하게 고민해야 하는 시점에 와있다. 본 절에서는 생성형 인공지능 기술이 어떻게 발전하고 있는지 기술 동향에 대해서 살펴보고자 한다.

1. 생성형 인공지능 핵심 기술 동향  비전 분야 생성형 인공지능 분야의 장을 연 GAN은 2014년 제안된 이후로 관련 연구들이 꾸준히 진행되고 있다. 학습이 까다로운 GAN의 특성을 고려하여 더욱 안정적으로 나은 성능을 달성하기 위한 연구들과 GAN을 활용한 이미지 변환, 이미지 향상 등의 응용 기술들에 관한 연구 개발이 이루어지고 있다. 최근에는 GAN을 3D와 비디오에 활용하는 기술들이 개발되고 있으며, 멀티 모달 GAN에 관한 연구들이 활발히 진행되고 있다. 모델의 학습 안정성을 높여준 Wasserstein GAN, Energy-Based GAN, 더 나은 품질의 결과물을 생성하기 위한 Deep Convolutional GAN, Progressive GAN 등이 있다. 한편으로는 Conditional GAN, pix2pix, CycleGAN, StyleGAN, DragGAN과 같이 다양한 조건과 방법으로 이미지를 변환하는 기술들이 개발되었다[20]. 멀티 모달 GAN 관련해서는 Stacked GAN, DALL-E 2, Midjourney, Imagen, Parti, CLIP 등이 있으며 주로 텍스트 입력에 기반해서 이미지를 생성한다. Adobe firefly는 생성형 인공지능 도구인 Generative Fill 기능이 제공되는데 영역을 선택해서 텍스트로 입력하면, 그에 따르는 이미지를 생성해서 채워준다.
 언어 분야에서는 구글이 2014년에 발표한 트랜스포머 구조를 기반으로 ChatGPT, Bard, LLaMA와 같은 대규모 언어 모델에 관한 연구가 진행되었다. 2022년 GPT3.5를 기반으로 무료 ChatGPT를 선보였으며, 2023년에는 유료 버전을 GPT4.0을 기반으로 제공하고 있다. ChatGPT 개발에 많은 돈을 투자했던 Microsoft는 bing에 GPT4.0를 내장하여 bing ai 서비스를 제공하고 있다. Bard는 구글에서 개발한 언어 인공지능으로 구글 검색을 통해서 실제 정보에 접근하고 처리할 수 있어서 ChatGPT보다 실시간 정확한 정보를 제공할 수 있다. LLaMA는 다른 언어 모델보다 규모는 작지만 높은 성능을 보이고, 공개적으로 사용 가능한 데이터를 이용한다. 현재 LLaMA는 단일 GPU(Graphics Processing Unit)에서 실행할 수 있고, 언어 모델의 편향과 같은 문제 연구를 위해서 연구 커뮤니티에 모델을 오픈했다.
 음악 생성 분야에서는 구글에서 트랜스포머를 기반으로 MusicLM을 개발했고, Variational Autoencoder(VAE)를 기반으로 MusicVAE[21]를 개발했다. 마젠타(magenta)는 구글 Brain의 연구 프로젝트 중 하나로서, 음악 및 예술 분야에서 인공지능 기술을 활용하여 창의적인 작업을 돕는 것을 목표로 한다. OpenAI에서는 GPT2를 기반으로 MuseNet을 개발했다. 이 외에도 Musegan, FlowComposer, DeepBach, DeepJazz 등 다양한 솔루션들이 개발되었다.

2. 생성형 인공지능 기술 활용 분야 동향  생성형 인공지능 기술의 활용 분야는 매우 광범위하고 다양한 만큼 사회적 파급력과 잠재적 위협이 매우 높은 기술로 인식되고 있다.

가. 초개인화(Hyper-Personalization) 서비스 분야  개별 고객의 선호도, 구매내역 등의 정보를 수집해서 개인 맞춤형 제품 추천, 콘텐츠 자동화, 프로모션을 제공할 수 있어서 기업으로서는 수익 증대와 고객 이탈 감소 효과를 얻을 수 있다. 의료 분야에서도 환자 병력, 증상, 유전 정보, 복용 상태, 작업환경 등을 기반으로 개인 맞춤형 치료 서비스를 제공할 수 있다.

나. 대화형 인공지능(Conversational AI) 분야  대화형 AI는 질문과 응답을 분석함으로써 사용자의 의도 파악을 정확하게 해낸다. 생성 모델 기반의 챗봇은 자연어이해(Natural Language Processing: NLP), 자연어 생성(Natural Language Generation: NLG), 딥러닝을 이용한다. 이를 통해 가상 비서, 챗봇 및 기타 대화형 인터페이스를 사용할 수 있어 다양한 분야에 활용될 전망이다. 신생 기업들은 ChatGPT를 이용해서 대화형 챗봇 기반의 다양한 응용 서비스를 개발하고 있다. 일상적인 고객 문의를 자동화하고 일반적인 문제를 해결하며 개인화된 지원을 제공하여 고객 만족도를 향상시킨다.

다. 과학 분야에서의 인공지능 기술 활용 저변화(AI for Scientific Research)  DeepMind의 AlphaFold는 생성형 인공지능 기술을 활용해서 단백질 구조를 예측해냈는데 과학계에 알려진 대부분의 단백질 구조를 예측할 수 있다고 한다. AlphaFold는 질병과 관련된 단백질 구조를 예측함으로써 관련 약물을 발견하거나, 질병을 진단하고 백신을 개발하는 것에 효과적으로 활용될 것으로 전망된다. 생성형 인공지능 기술은 아직 개발 초기 단계에 있지만, 의학 분야에서 새로운 혁신을 가져올 잠재력이 있다는 평가를 받고 있다. 생성형 인공지능 기술을 활용한 정보수집, 콘텐츠 생성, 시뮬레이션 등을 통해서 질병 진단, 환자 맞춤형 치료, 신약 개발, 의료 교육 분야에 효과적으로 활용될 수 있다. NVIDIA는 생성형 인공지능 기술로 생물학 연구개발을 발전시키는 BioNeMo 서비스를 공개했다. 생성형 인공지능을 위한 클라우드 서비스인 BioNeMo에는 3D 단백질 구조 예측, 단백질과 저분자 생성, 속성 예측, 분자 도킹을 위한 새로운 모델이 포함되어 있어 약물 발견 분야에 활용될 전망이다[24].

라. Image/Speech/Video 생성  서비스 중인 Stable Diffusion, Imagen 및 Dall-E의 새 버전이 출시될 것이며, 다양한 스타트업에 의해서 솔루션들이 지속적으로 개발되어 콘텐츠 시장에 활용될 것으로 보인다. 합성 오디오/비디오 생성을 통해 창의적이고 경제적으로 앨범을 제작할 수 있게 된다. 딥페이크와 같이 진짜 같은 가짜 오디오/비디오/이미지 콘텐츠들이 구분이 어렵게 생성되면서 관련 규제와 이를 막는 기술 개발들이 함께 진행될 것이다. 3D 콘텐츠 생성은 아직 초기 단계이며 Berkeley Synthetic에서 활발하게 연구 중이다. 다양한 잠재력을 가진 멀티 모달 조인트 임베딩 분아에서는 Meta가 ImageBind[22]를 개발했다. ImageBind는 이미지, 텍스트, 오디오와 같은 다양한 모달의 데이터를 하나의 임베딩 스페이스에 저장한다. 이를 활용하게 되면, 이미지 기반 검색, 텍스트 기반 이미지 검색, 오디오-이미지-텍스트 맵핑 등 다양한 서비스들이 가능해지게 된다. NVIDIA는 생성형 인공지능 모델을 구축, 맞춤화, 배포하기 위한 프레임워크인 NeMo 프레임워크 베타버전을 발표했다[24]. 이를 활용하여 다양한 콘텐츠 작성이 수월해질 전망이다.

마. 개발 프로세스에 활용  개발 프로세스에서 생성형 인공지능은 코드 생성, 주석 생성, 테스팅 증강, 디버깅 코드 생성 및 빌드 및 배포를 위한 코드 생성 분야에 이용될 수 있다. 현재 활용 가능한 기술로는 Amazon CodeWhisperer, GitHub Copilot, CodeSmith, StarCoder, Tabnine, Google Bard, Microsoft Bing 등이 있다. Amazon CodeWhisperer는 기존 코드와 코멘트를 기반으로 실시간으로 코드 제안을 생성할 수 있다. GitHub Copilot은 GitHub와 OpenAI가 공동 개발한 AI 기반 코드 완성 도구로 현재 개발 중이지만 이미 많은 개발자가 사용하고 있다. CodeSmith는 개발자들이 일반적인 응용 프로그램 소스 코드를 자동으로 생성할 수 있도록 도와주는 템플릿 기반의 소스 코드 생성기로 C#, Java, VB(Visual Basic), PHP(Hypertext Preprocessor), ASP.NET(Active Server Pages Network Enabled Technologies), SQL(Structured Query Language) 등 어떤 언어에 대해서도 일반적인 소스 코드를 생성할 수 있다. 가트너는 생성형 인공지능을 개발 프로세스에 활용하는 데 있어서의 위험을 고려할 것을 권고한다[23]. 잠재적인 위험은 지적재산권 문제, 더 이상 코딩하지 않고 의존하는 것에 따른 개발자들의 기술력 저하, 요청대로 원하는 결과를 내주지 않는 코드를 생성할 수도 있고, 생성형 인공지능 모델의 재훈련이 어려운 만큼 이전 방식대로 계속해서 코딩함으로써 변화에 대응하지 못하는 코드를 개발할 수 있음을 지적하고 있다.

바. 해킹 및 보안  생성형 인공지능은 다양한 망 침투를 위해 사용될 것으로 전망된다. 따라서, 생성 기술을 사용하여 이러한 방법에 대응하기 위한 기술들이 빠르게 개발될 것이다. 딥페이크는 계속해서 문제가 될 것이며, 현재 딥페이크를 생성하는 데 활용된 기술이 딥페이크를 탐지하는 것에 사용되고 있다. 이미지, 비디오, 텍스트, 3D 등 불법적이고 비윤리적인 합성 콘텐츠의 확산이 문제가 될 것이다. 생성형 인공지능을 이용한 보안 기술들이 빠르게 제품화될 것으로 보이나, 생성형 인공지능을 이용해서 생성한 콘텐츠의 품질도 높아질 것으로 우려된다.

3. 생성형 인공지능 기술 관련한 법 규제 연구 동향  생성형 인공지능은 사회적으로 큰 영향을 미칠 수 있는 콘텐츠를 생성할 수 있게 됨으로써 결과물에 대한 지재권, 설명 가능성, 공정성, 보안과 프라이버시, 책임 등의 이슈에 대해서 진지하게 연구하고 규제화 할 필요가 있다. 2023년 2월 비영리 연구기관인 PAI(Partnership on AI)는 합성 미디어에 대한 책임 있는 사용을 위한 프레임워크를 발표했고 매년 검토를 거쳐서 개정할 것이라고 한다[25]. 합성 매체 기술 및 인프라 구축자, 합성 미디어 생성자, 합성 매체를 배포 및 출판하는 자에 대한 공동의 행동 지침을 담고 있다. 현재 OpenAI, Adobe, BBC R&D, Meta, Microsoft, TikTok을 포함하는 12개 관련 기관들이 참여하고 있다. 50개 이상의 글로벌 기관과 함께 1년에 걸친 초안 작성 작업을 거쳐 지금의 프레임워크를 만들었고, 합성 미디어 신생 기업, 소셜 미디어 플랫폼, AI 연구기관, 인권 단체, 학술 기관, 경험 전문가, 뉴스 조직 및 대중 논평가 등 광범위한 AI 관련 이해당사자가 포함되었다.
 대표적인 인공지능 국제학술대회인 ICML(International Conference on Machine Learning) 2023에서는 생성형 인공지능에 대한 법적인 이슈를 다루는 워크숍을 진행할 예정이다. 생성형 인공지능의 경우 막대한 양의 지적 재산권을 수집해서 이를 활용하여 콘텐츠를 생성하고 배포하므로 저작권 침해와 같은 심각한 문제가 발생할 수 있다. 또한, 공정하지 않거나 편향적인 혹은 오류를 포함하는 콘텐츠를 생성하는 경우 개인정보보호, 프라이버시 침해 및 사회적 책임과도 연관된다. 따라서, 보완 대책을 마련하기 위해서 인공지능 연구자, 실무자, 데이터 큐레이터, 법률 전문가 간의 협업을 통한 대책 마련을 논의할 계획이다.
 국가정보원과 국가보안기술연구소는 2023년 ChatGPT 등 생성형 AI 활용 보안 가이드라인을 배포했다. 주요 내용으로는 생성형 인공지능 기술의 보안 위협을 명세하고 안전한 사용을 위한 사용 가이드라인을 기술했다.
 이 외에도 인공지능 활용에 대한 전반적인 가이드라인 및 규제 움직임도 다양하게 일어나고 있다. IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems는 자율 및 지능형 시스템의 설계 및 개발에 관련된 모든 이해 관계자가 윤리적 고려사항을 우선시할 수 있도록 교육, 훈련 및 권한을 부여하여 이러한 기술이 인류의 이익을 위해 발전되도록 하는 것을 강조한다. EU에서는 Ethics guidelines for Trustworthy AI를 발간했는데 선택 의지와 감독, 기술적 견고성 및 안전성, 개인 정보 보호 및 데이터 거버넌스, 투명도, 다양성, 비차별 및 공정성, 사회 및 환경 복지, 책임의 7가지 주요 요구사항을 명시했다.


 


Ⅳ. 결론

 생성형 인공지능 기술의 전망은 매우 밝다. 다양한 분야에서 새로운 제품과 서비스를 개발하는 데 사용될 수 있다. 생성형 인공지능 기술은 새로운 게임, 영화, 음악을 만들고, 새로운 제품을 디자인하고, 새로운 교육 콘텐츠를 개발하는 데 사용될 수 있다. 또한, 새로운 경험을 제공하는 데 사용될 수 있다.
 이러한 생성형 인공지능 분야는 특히, OpenAI, Google, Meta를 중심으로 Stanford, UC Berkeley 및 MIT와 같은 주요 대학과 협력하여 핵심 기술들이 개발되고 있다. 우수한 인재와 함께 대규모 컴퓨팅 인프라가 필요한 까닭이다. 따라서 소수 기업이 관련 산업의 지재권 및 독점적 시장 지배권을 행사할 가능성이 크다는 우려가 있다. 더불어서 생성형 인공지능이 활용하는 데이터의 편향성 문제, 프라이버시 문제, 지적 재산권 문제 등 아직 해결해야 하는 문제가 많다. 기술적으로 해결해야 하는 부분과 함께 사회적, 법적, 제도적 이슈들이 산재한 상황이다. 하지만, 새로운 제품 디자인이나 해결되지 못했던 다양한 과학적 문제들을 풀기 위해서 활용될 가능성이 커짐에 따라서 새로운 비즈니스 생태계를 형성하고, 사람들의 일하는 방식과 성격을 크게 바꾸게 될 것으로 전망된다.
 인공지능 기술이 인간을 대체할 것인가, 인간을 증강하게 될 것인가, 그리고 가져올 기술 혁신은 현 인류에게 멋진 신세계가 될 것인가에 대한 자문을 구체적이고 진지하게 던질 시기가 다가온 것이다.



[ 참고문헌 ]

[1] 김말희, 전종암, 표철식, “컴퓨터 비전 기술과 예술”, IITP, 주간기술동향 v.2002, 2021, pp.15-26.
[2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, “Generative Adversarial Nets”, NIPS, 2014, pp.1-9.
[3] AIArtists.org, The world’s largest community of artists exploring Artificial Intelligence, https://aiartists.org/
[4] The Washington Post, A 19-year-old developed the code for the AI portrait that sold for $432,000 at Christie’s, 2018.
[5] Visla magazine, 인공지능이 그려낸 소름 끼치는 누드화, 2018.
[6] OpenAI, ChatGPT, https://chat.openai.com.
[7] Google, Bard, https://bard.google.com.
[8] OpenAI, DALL·E 2 is an AI system that can create realistic images and art from a description in natural language, https://openai.com/dall-e-2.
[9] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen, “Hierarchical Text-Conditional Image Generation with CLIP Latents”, arxiv, 2022, pp.1-27.
[10] New York Times, “An A.I.-Generated Picture Won an Art Prize. Artists Aren’t Happy”, 2022.
[11] Andrea Agostinelli, Timo I. Denk, Zalan Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank, “MusicLM: Generating Music From Text”, arxiv, 2023, pp.1-15.
[12] 김말희, 허태욱, 이일우, “비즈니스 세계로! 인공지능 기술 동향”, IITP, 주간기술동향 v.2062, pp.2-15, 2022.
[13] Gartner, Gartner Glossary, https://www.gartner.com/en/glossary?glossarykeyword=Automation
[14] IBM, What is generative AI?, https://research.ibm.com/blog/what-is-generative-AI
[15] Analytics Vidhya, “2023’s Best Guide to Discriminative & Generative Machine Learning Models”, 2023.
[16] Medium, Vanilla NN vs CNN, 2022.
[17] Tensorflow, DCGAN, 2023.
[18] Analytics Vidhya, “A Simple Introduction to Sequence to Sequence Models”, 2020.
[19] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, “Attention is all you need”, NIPS, 2017, pp.1-11.
[20] Ankan Dash, Junyi Ye, Guiling Wang, “A review of Generative Adversarial Networks(GANs) and its applications in a wide variety of disciplines - From Medical to Remote Sensing”, arxiv, 2021, pp.1-41.
[21] Adam Roberts, Jesse Engel, Colin Raffel, Curtis Hawthorne, Douglas Eck, “A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music”, arxiv, 2018, pp.1-16.
[22] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, and Ishan Misra, “ImageBind: One Embedding Space To Bind Them All”, 2023m, pp.1-15.
[23] Gartner, Assessing How Generative AI Can Improve Developer Experience, 2023.
[24] Nvidia, “언어, 시각 콘텐츠, 생물학 애플리케이션을 위한 NVIDIA의 ‘생성형 AI 서비스’”, 2023.
[25] Partnership on AI, PAI’s Responsible Practices for Synthetic Media-A Framework for Collective Action, 2023.

* 본 자료는 공공누리 제2유형 이용조건에 따라 정보통신기획평가원의 자료를 활용하여 제작되었습니다.