초거대 언어 모델과 설명 가능한 인공지능 연구 동향

●

고기혁 || KAIST 사이버보안연구센터 팀장

* 본 내용은 고기혁 팀장(☎ 042-350-8374, gihyuk.ko@kaist.ac.kr))에게 문의하시기 바랍니다.

** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

I. 서론

초거대 언어 모델(Large Language Model: LLM)에 대한 관심이 폭발적으로 증가하고 있다. 지난 2022년 11월 GPT-3.5 및 그를 기반으로 공개된 OpenAI의 챗봇 ChatGPT의 성공을 시작으로 2023년 2월 Microsoft와 OpenAI에서 Bing Chat을, 메타에서 LLaMa를 공개하였으며, 3월에는 Google에서 Bard를 공개하는 등 세계 유수의 기업들에서 초거대 언어 모델과 그에 기반한 서비스를 앞다투어 내놓고 있다. 국내에서도 LG의 엑사원(EXAONE) 2.0, 네이버의 HyperCLOVA X, 카카오의 KoGPT 등 한국어를 주 언어로 하는 초거대 언어 모델의 개발에 아낌없는 투자가 이루어지고 있다. 이와 같은 추세에 힘입어 몇몇 연구자들은 초거대 언어 모델의 눈부신 성공이 그간 갈망하여 왔던 인공 일반지능(Artificial General Intelligence: AGI) 개발에 있어 중요한 첫 걸음으로 자리매김할 수 있지 않을까 기대를 품고 다양한 연구를 수행하고 있다.
오늘날 언어 모델이 비전이나 영상 처리 등에 사용되는 인공지능 모델과 가장 차별화된 점 중 하나는 역시 그 막대한 규모에 있을 것이다. 셀프 어텐션 메커니즘(self-attention mechanism)을 핵심 구성요소로 초거대 언어 모델 구조의 기틀을 마련한 트랜스포머(transformer)[1] 모델은 초기 약 5,000만 개의 파라미터를 보유하였으나, 오늘날 초거대 언어 모델은 그 단위가 바뀌어 Google의 PaLM이 약 5,400억 개, GPT-4가 약 1조 7,000억 개(추정) 파라미터를 보유하는 등 그 규모가 기하급수적으로 증가해 왔다. 이러한 증가 추세는 [그림 1]에서도 확인할 수 있다. 2020년 이전의 언어 모델들이 10억 개 안팎의 파라미터를 보유한 반면 2020년 6월 1,750억 파라미터를 지닌 GPT-3의 등장 이후로 각 기업 및 연구소들은 LLM의 파라미터 규모를 경쟁하듯이 늘려 왔다.

<자료> David McCandless, Tom Evans, Paul Barton, “The Rise and Rise of AI Large Language Models”, informationisbeautiful.net

[그림 1] 초거대 언어모델(LLM)의 모델 파라미터 수 변화 추이

이와 같이 언어 모델의 초거대화 경쟁을 촉발한 근본적인 이유는 모델의 파라미터 개수가 증가할수록 보다 복잡하고 긴 데이터 토큰(token)의 학습 및 처리가 가능해지며, 그 결과로서 여러 태스크를 수행할 수 있는 다재다능한 모델을 학습할 수 있기 때문이다. 특히, 특수한 아키텍처의 발명 없이 파라미터의 수를 늘리는 것만으로 언어 모델의 성능을 극대화할 수 있음이 발견되기도 하였는데, 지난 2021년 OpenAI의 연구원이자 GPT-3 개발자인 Jared Kaplan은 이와 같은 상황을 빗대어 “우리는 새로운 아이디어가 필요하다고 생각했지만 규모를 키우는 것만으로도 우리가 원하는 바를 구현할 수 있었다”라고 언급하기도 하였다[2].
하지만 이처럼 그 규모 및 성능 면에서 하루가 다르게 발전하고 있는 초거대 언어 모델은 모든 시스템이 그러하듯 완벽과는 다소 거리가 있다. 일례로, 초거대 언어 모델은 그 작동 원리 상 ‘확률적으로 그럴 듯한’ 단어들을 나열하기 때문에, 거짓된 정보를 사실인 양 제시하는 환각(hallucination) 문제로부터 자유롭지 못하다. 또한, 초거대 언어 모델의 출력을 악의적으로 사용하는 경우 큰 사회적 비용이 발생할 수 있는데, 대표적으로 해커들이 ChatGPT를 사용하여 악성 코드를 생성하거나[3] 대량의 피싱 메일을 작성할 수 있다[4]는 우려가 있다.
[표 1]에는 초거대 언어 모델 활용 시 발생하는 대표적인 문제점과 잠재적 해결 방안이 정리되어 있다. [표 1]에 나타난 문제점들은 많은 경우 초거대 언어 모델이 어떠한 지식 또는 표상을 학습하였으며, 어떤 과정을 통해 출력을 도출하는지 사람이 명확하게 이해하지 못하기 때문에 발생한다고 할 수 있다. 따라서 몇몇 연구자들은 초거대 언어 모델에 설명 가능성을 부여함으로써 당면한 문제를 부분적으로 해결 가능할 것으로 전망하고 있으나, 점차 증가하는 모델 규모, 보안성보다는 성능을 우선시하는 개발 기조는 진정한 의미의 설명 가능성을 개발하는 데에 걸림돌로 작동할 수 있다.

[표 1] 초거대 언어 모델 활용 시 주요 문제점과 잠재적 해결 방안 및 설명 가능성의 역할

주요 문제점	설명	잠재적 해결 방안	설명 가능성의 역할
환각(Hallucination)	잘못된 정보를 사실인 양 나열하거나 설득력 있게 보이도록 허위 근거를 만들어 제시	출력의 진위 구별, 허위정보 필터링	인공지능 모델 보완 (가짜정보 생성의 원인 식별 및 효과적 필터링)
편향(Bias)	사전학습에 사용한 데이터에 존재하는 인종, 성별, 정치성향 등 편향성이 출력에 그대로 반영되어 나타남	출력의 편향성 탐지, 편향성 방지 미세조정	인공지능 모델 보완 (편향성의 핵심 원인 식별 및 미세조정을 통한 보완)
저작권 및 개인정보 침해(Use without Consent)	사전학습에 사용한 데이터에 개인의 정보나 저작물이 존재하였을 경우, 소유자의 사전 동의나 출처 표기 없이 사용	올바른 출처 표기, 개인 민감정보 제거	사용성 및 보안성 증진 (핵심정보의 출처 식별, 개인정보 식별 및 제거)
악의적 사용(Malicious Use)	초거대 언어모델의 사용자가 해킹이나 피싱, 봇 유포 등 악의적인 의도로 사용하여 타인에게 피해를 유발	악의적 의도 탐지, 위험 콘텐츠 생성 방지	사용성 및 보안성 증진 (악의적 의도 판단원인 상세를 통한 재발 방지)

<자료> 한국과학기술원 자체 작성

이러한 필요성에 기인하여 본 고에서는 그 활용성이 점차 확대되고 있는 초거대 언어 모델의 판단을 인간이 이해할 수 있도록 설명하기 위해 개발되어 온 설명 가능한 인공지능(Explainable AI: XAI) 기법에 대해 살펴보고자 한다. 최근 들어 이미지, 영상 등 다양한 형태의 정보를 동시에 처리할 수 있는 멀티모달(multi-modal) 모델의 개발과 보안 위협에 대한 분석이나 의료 데이터 분석 등 주어진 태스크를 전문적으로 해결하도록 미세조정된(fine-tuned) 초거대 언어 모델들이 개발되고 있는 만큼 초거대 언어 모델의 다양성은 더욱 증가하고 있어, 현존하는 설명 가능한 인공지능 기법 동향 조사를 통한 새로운 XAI 기술의 개발이 필요할 것이다. 본 고의 제 II장에서는 먼저 초거대 언어 모델의 개념과 그 구조 및 작동 원리에 대해 살펴보고, 제 III장에서는 초거대 언어 모델을 설명하고자 개발된 설명 가능한 인공지능 기법을 그 분류별 대표적인 예시를 통해 설명한다. 끝으로 제 IV장에서 본 고의 결론을 제시한다.

II. 초거대 언어 모델의 개념 및 작동 원리

언어 모델(Language Model: LM)이란 인간의 언어를 이해하고 자연어와 관련된 다양한 태스크를 처리할 수 있도록 학습된 인공지능 모델을 총칭한다. 본래 수학적인 의미의 언어 모델은 주어진 단어 순열(즉, 문장)에 대해 확률을 부여하는 모델을 의미하는데, 이 확률은 주어진 단어 순열이 얼마나 그럴듯한지를 나타낸다. 이처럼 모든 문장에 대해 확률 값을 매길 수 있다면 주어진 문장의 다음 단어로 가장 적합한 단어가 무엇인지를 파악하여 제한 없는 길이의 글을 생성하는 등 다양한 태스크를 수행할 수 있다.
초거대 언어 모델(LLM)은 수많은 파라미터를 가진 언어 모델을 의미한다. 전통적인 의미의 언어 모델은 각 단어 간의 통계적 빈도수를 학습하는 수학적인 확률 모델로써 정의하였기 때문에 그 파라미터의 규모가 제한되었으나, 이러한 한계를 극복하고 다수의 파라미터를 보유하는 동시에 이들을 효율적으로 학습할 수 있는 심층학습 아키텍처의 발명으로 인해 그 규모에 있어 거대화가 가능해졌다.
오늘날 초거대 언어 모델의 구조는 트랜스포머[1]라고 불리는 모델을 바탕으로 하고 있다. 트랜스포머는 문장 속 단어들의 관계를 추적해 맥락과 의미를 기록(학습)하는 신경망 구조를 띄고 있는데, 입력되는 문장 순열을 임베딩 벡터로 인코딩하는 인코더(encoder)와 인코딩된 벡터를 사용하여 여러 연산을 통해 출력 확률을 계산하는 디코더(decoder)로 구성된다[그림 2]. 트랜스포머 모델은 이처럼 벡터로 인코딩 처리된 문장을 구성하는 단어들 간의 관계성을 셀프 어텐션이라는 메커니즘을 사용하여 학습하며, 추론 단계에서는 이러한 관계성을 바탕으로 주어진 문장 배열이 자연스러운지를 파악하는 등의 태스크를 수행한다. 셀프 어텐션에 기반한 모델 구성은 병렬적인 데이터 처리 및 학습을 가능하게 하여 기존 순차적인 학습이 필요하였던 순환 신경망(Recurrent Neural Network: RNN) 방식에 비해 다수의 데이터 학습에 효과적이다.

<자료> A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I. Polosukhin, “Attention is All you Need”, NIPS 2017.

[그림 2] 트랜스포머(Transformer) 모델 구조

트랜스포머를 기반으로 다양한 구조의 언어 모델들이 개발되었다. 이들 초거대 모델은 트랜스포머의 각 구성 요소(즉, 인코더와 디코더)를 연속하여 적층한 구조로서, 크게는 Encoder-only, Decoder-only 그리고 Encoder-Decoder의 세 종류로 나눌 수 있다.
말 그대로 Encoder-only와 Decoder-only는 트랜스포머의 인코더만을, 혹은 디코더만을 다수 쌓은 구조를 의미하며, Encoder-Decoder는 인코더와 디코더를 모두 사용한 구조이다. [그림 3]은 2023년 4월까지 공개된 초거대 언어 모델을 그 구조에 따라 도식화한 계통 수(evolutionary tree)이다.

<자료> J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin and X. Hu, “Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond”, CoRR abs/2304.13712, 2023.

[그림 3] 초거대 언어모델 계통수(Evolutionary Tree)

언어 모델의 구조에 따라 모델이 사용되는 학습 기법 또한 다르다. BERT(Bidirectional Encoder Representations from Transformers)[6]로 대표되는 Encoder-only 모델의 경우 입력 문장 중 무작위로 마스크한 뒤 마스크된 단어를 예측하여 학습하는 마스크(masked) 언어 모델 학습 기법을 사용하며, 이같은 학습 방식은 초기 언어 모델의 발전을 이끌었다. 이에 반해 Decoder-only 모델은 부분적으로 주어진 문장에서 다음 단어를 예측하는 학습 기법을 사용하는데, 대표적으로 초거대 언어 모델 크기 경쟁의 신호탄을 쏘아올린 GPT(Generative Pre-trained Transformers)[7] 모델이 있다. [그림 3]에서도 확인할 수 있듯, 오늘날 주로 개발되는 LLM은 대부분 GPT의 Decoder-only 구조를 띄고 있다. [표 2]에 초거대 언어 모델의 구조별 주요 특징 및 대표적인 모델의 예시가 나타나 있다.

[표 2] 초거대 언어 모델의 구조별 주요 특징 및 예시

언어모델 구조	주요 특징	초거대 언어모델
Encoder-Decoder 및 Encoder-only (BERT[6] 스타일)	- 학습: 마스크드(masked) 언어모델 - 모델 타입: 분류형(discriminative) - 사전학습 태스크: 마스크된 단어 예측	BERT, RoBERTa, XLM, DistilBERT, Xlnet, ELECTRA, T5, AlexaTM 등
Decoder-only (GPT[7] 스타일)	- 학습: 자기 회귀(autoregressive) 언어모델 - 모델 타입: 생성형(generative) - 사전학습 태스크: 다음 단어 예측	GPT-3, OPT. PaLM, BLOOM, MT-NLG, Gopher, LaMDA, LLaMA, GPT-4 등

<자료> J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin and X. Hu, “Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond”, CoRR abs/2304.13712, 2023.

III. 초거대 언어 모델에 대한 인공지능 설명 기술

지금까지 언어 모델의 원리 그리고 오늘날 주로 사용되는 초거대 언어 모델의 구조와 특징을 상세히 알아보았다. 본 장에서는 초거대 언어 모델에 대한 인공지능 설명을 도출하기 위해 적용할 수 있는 설명 가능한 인공지능(eXplainable AI: XAI) 기술을 몇 가지 예시를 들어 살펴보고자 한다. 본론에 들어가기에 앞서, “인공지능의 작동 원리에 대한 설명”은 하나의 방법만 존재하는 것이 아니며, 인공지능 설명성이 지닌 다양한 차원에 따라 수많은 방법들이 개발되어 왔음을 강조하고자 한다. 혹자는 이를 두고 “설명 가능한 인공지능이라는 용어는 그 자체로 매우 긴 설명을 요한다”고 논하기도 하였다. 수많은 설명 기법을 모두 깊이 있게 소개하기는 어렵기 때문에, 본 고에서는 초거대 언어 모델의 구조적 특징에 알맞게 새로이 개발된 방법들에 대해 선택적으로 소개하고자 한다.
[표 3]은 초거대 언어 모델의 작동을 설명할 수 있는 현존하는 인공지능 설명 기법을 정리한 표이다. 먼저, 인공지능 설명은 그 대상이 되는 입력의 범위(scope)에 따라 국소(local) 및 전역(global) 설명 기법으로 나눈다. 즉, 인공지능 설명을 사용하여 단일 입력을 해석할 수 있다면 국소 설명, 입력에 구애받지 않고 인공지능 모델의 전반적인 판단 이유를 설명한다면 전역 설명이다.

[표 3] 현존하는 초거대 인공지능에 대한 설명 기법

설명 방법		상세 기법	대상 자연어처리(NLP) 태스크
국소 설명 (Local Explanation)	특성 기반 설명 (Feature-based Explanation)	기울기 기반 설명 (Gradient-based Explanation)	NMT, QA, Topic Classification
		입력 변동값 기반 설명 (Input Perturbation-based Explanation)	QA
		대리 모델 기반 설명 (Surrogate Model-based Explanation)	QA, Topic Classification
		어텐션 기반 설명 (Attention-based Explanation)	QA, VQA, Sentiment Analysis
	인과성 기반 설명 (Causality-based Explanation)	적대적 예시 (Adversarial Examples)	NMT, VQA, Sentiment Analysis, Grammatical Error Detection
	인과성 기반 설명 (Causality-based Explanation)	반사실적 설명 (Counterfactual Explanation)	Bias in Model, Syntactic Evaluation, POS
	자연어 설명 (Natural Language Explanation)	-	NMT, Label Prediction, Natural Language Inference
전역 설명 (Global Explanation)	시각화(Visualization)	-	Linguistic Features
	프로빙(Probing)	분산 단어 임베딩 프로빙 (Distributed Word Embedding Probing)	NMT, VQA, Sentiment Analysis, Grammatical Error Detection
	프로빙(Probing)	은닉 상태 프로빙 (Hidden State Probing)	NMT, Compositionality, Correference Resolution with Syntactic Feature

<자료> J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin and X. Hu, “Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond”, CoRR abs/2304.13712, 2023.

국소 및 전역 설명은 서로 다른 목적을 지니고 있는 만큼 그 생성에 있어 서로 다른 기법이 사용된다. 먼저, 국소 설명의 경우 어떤 입력 특성이 출력에 가장 큰 영향을 미쳤는지를 분석하는 특성 기반(feature-based) 설명, 인공지능 판단의 경계를 인과적인 분석을 통해 해석하는 인과성 기반(causality-based) 설명, 사람이 이해할 수 있는 자연어를 사용하여 판단 결과를 설명하는 자연어(natural language) 설명 등 다양한 방법을 통한 설명이 가능하다. 전역 설명의 경우 모델 전체의 경향성을 고려해야 하므로 모델 전체를 시각화하거나 다양한 시도를 통해 내부 기작을 살펴보는 프로빙(probing) 방법 등이 존재한다.
본 장에서는 기울기 기반 설명, 어텐션 기반 설명, 은닉 상태 프로빙의 세 가지 설명 기법을 예시와 함께 설명한다. 이밖에 본 고에서 소개되지 않은 기법들에 대해서는 Danilevsky 외[8] 및 Choudhary 외[9] 등 관련 조사 논문에 체계적으로 정리되어 있다.

1. 기울기 기반 설명 기울기 기반 설명(gradient-based explanation)은 입력의 각 요소(특성)가 모델의 출력을 도출하는 데에 있어 지니는 영향도를 기울기로써 계산하는 방법으로, 컴퓨터 비전 분야를 중심으로 Saliency Map[10], Layerwise Relevance Propagation(LRP)[11], Integrated Gradients(IG)[12] 등 다양한 설명 기법이 개발되었다. 이들 기법은 서로 다른 알고리즘을 사용하여 입력 요소 별 기울기를 계산하고 그 크기에 따라 중요한 입력 요소와 중요하지 않은 입력 요소를 구분한다.

<자료> P. K. Mudrakarta, A. Taly, M. Sundararajan and K. Dhamdhere, “Did the Model Understand the Question?”, ACL(1) 2018: 1896-1906.

[그림 4] 언어 모델에 대한 기울기 기반 설명(Gradient-based Explanation)

이와 동일한 원리로 자연어 처리 태스크를 수행하는 언어 모델에 대해서도 기울기 기반 설명을 적용할 수 있다. Mudrakarta 외[13]에서는 주어진 질의에 대해 적절한 답을 생성하는 질의응답(question-answering) 태스크에서 기울기 기반 설명인 IG[12]를 사용하여 언어 모델이 질의사항을 잘 이해하였는지를 표시하였다. [그림 4]의 예시와 같이 IG 영향도 값에 따라 질의문의 핵심 단어를 진한 색상으로 나타냄으로써 언어 모델이 질문의 주요 요소를 잘 파악하였는지 여부를 설명할 수 있다. 이밖에도 He 외[14]는 인공신경망 기계번역(neural machine translation)에 IG를 접목하여 번역된 단어 간 대응성을 표시하였다.

2. 어텐션 기반 설명 어텐션(Attention) 메커니즘[15]은 Seq2Seq 모델과 같이 주어진 문장을 바탕으로 순차적으로 다음 단어를 생성하는 모델에서 첫 입력 단어부터 마지막 단어까지 순차적으로 훑어가며 연산하였던 기존의 메커니즘이 가지는 단점을 보완하기 위해 발명된 메커니즘이다. 어텐션 메커니즘에서는 모든 입력 단어가 다음 단어의 예측에 어느 정도 연관되어 있는지를 어텐션 가중치(attention weight)로서 계산하며, 이처럼 계산된 값은 자연스럽게 모델이 어떻게 작동하는지에 대한 설명으로써 해석할 수 있다. 특히, 트랜스포머 구조에서는 셀프 어텐션 구조로 동일한 문장에 대해 여러 레이어에 걸쳐 반복적으로 어텐션 값을 계산하게 되어 각 레이어마다 어텐션 가중치를 통한 설명이 가능하다.

(a) 어텐션 기반 설명을 통한 영어-프랑스어 단어 대응관계 설명

(b) 어텐션 기반 설명을 통한 모델의 편향성 설명

<자료> D. Bahdanau, K. Cho and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR 2015. 2015.J. Vig, “A Multiscale Visualization of Attention in the Transformer Model”, ACL(3) 2019: 37-42.

[그림 5] 언어모델에 대한 어텐션 기반 설명 기법(Attention-based Explanation)

어텐션 메커니즘을 처음 제안한 Bahdanau 외[15]는 영어-프랑스어를 번역하는 언어 모델에 대해 어텐션 가중치를 기반으로 영어 및 프랑스어 단어의 대응성을 설명하였다. [그림 5a]는 두 개의 서로 다른 문장에 대해 어텐션 가중치에 따라 그린 상관 관계 히트맵이다. European은 europeenne, Area는 zone, August는 aout에 각각 대응하는 것을 확인할 수 있다. Vig[16]는 어텐션 가중치에 기반하여 초거대 언어 모델의 작동 원리를 시각화하는 도구를 개발하였으며, 이를 사용하여 모델이 가지는 성적인 편향성(bias)을 탐지할 수 있음을 보였다. [그림 5b]는 He/She가 지칭하고 있는 대상으로 가장 그럴듯한 단어가 어텐션 가중치를 기반으로 색칠되어 있다. 마지막 문장에서 doctor는 He와, nurse는 She와 강하게 연관됨으로써 모델 판단이 편향적일 수 있음을 파악할 수 있다.
다만, 몇몇 연구자들은 어텐션 가중치가 설명으로써 사용될 수 있는지에 대해 근본적인 의문을 제기하기도 하였다. Vashishth 외[17]는 어텐션 가중치가 진정 언어 모델이 수행하는 NLP 태스크에 대한 설명으로 작동하기 위해서는 먼저 기울기 기반의 설명과 어느 정도 일치해야 하며, 중요 어텐션 가중치를 임의로 바꿈으로써 모델의 출력이 바뀌어야 한다고 주장했으나, 어텐션 기반 설명 기법은 이들 중 어느 조건도 만족하지 못하였기 때문에 설명으로서는 부적합하다고 논하였다. 반면, Wiegreffe 외[18]는 어텐션 기반 설명을 부정하는 논문에서의 몇몇 실험이 잘못 실행되었다고 지적하였다. 이처럼 어텐션 가중치가 설명으로서 적합한지 여부에 대한 논쟁은 현재까지도 활발하게 계속되어 오고 있다.

3. 은닉 상태 프로빙 트랜스포머 기반의 언어 모델은 입력되는 단어 임베딩에 대해 반복적으로 셀프 어텐션 메커니즘을 적용하여 기계번역, 질의응답 등 주어진 태스크에 알맞는 표상(representation)을 학습한다. 이때 여러 레이어에 걸쳐 연산되는 중간 표상(intermediate representation) 혹은 중간 임베딩(embedding)이 학습에 주어진 태스크 이외의 일반적 지식을 학습하였는지를 확인하는 과정을 프로빙이라고 일컫는다.

<자료> Z. Zhong, D. Friedman and D. Chen, “Factual Probing Is[MASK]: Learning vs. Learning to Recall”, NAACL-HLT 2021: 5017-5033.

[그림 6] 언어모델에 대한 은닉 상태 프로빙(Hidden State Probing)

언어 모델에 대한 은닉 상태 프로빙(hidden state probing)은 언어 모델에 존재하는 단일 혹은 복수 레이어의 중간 임베딩 값을 사용하여 확인하고자 하는 지식을 테스트하는 분별기(classifier)를 학습한다. 대표적으로 Clark 외[19]는 BERT 언어 모델의 레이어 별 은닉 상태를 사용하여 언어 모델이 단어의 품사나 단어 간의 관계 등 언어적 특징을 어느 정도 학습하였는지를 프로브하였다. [그림 6]은 Zhong 외[20]에서 은닉 상태 프로빙의 도식으로, BERT 언어 모델의 중간 임베딩을 사용하여 셰프(chef)와 모드(made) 간의 관계를 예측할 수 있음을 보여준다. 이와 같은 언어적 프로빙(linguistic probing) 외에도 언어 모델이 일반적 사실을 학습하였는지를 테스트하는 사실적 프로빙(factual probing) 등 다양한 지식을 테스트하기 위한 프로빙이 존재한다.

Ⅳ. 결론

본 고에서는 초거대 언어 모델 출력의 판단 근거를 설명하고자 개발된 설명 가능한 인공지능 연구 동향을 살펴보았다. 초거대 언어 모델 기반 인공지능 서비스는 2010년대 컴퓨터 비전 분야의 눈부신 발전 이후 다소 주춤하고 있던 인공지능 산업에 다시금 폭발적인 활력을 불어넣었으며, 이로 인해 활성화된 언어 기반 서비스는 인공지능 기술의 킬러 앱(killer app)으로 확고히 자리 잡고 있다. 하지만 다른 한편으로는 환각 현상으로 인한 허위정보 유포나 해커 등 악성 그룹이 초거대 언어 모델을 악의적으로 활용함으로써 발생하는 피해 등 그 활용 과정에서 발생하는 이슈들 또한 아직 해결되지 못한 실정이다. 이같이 점차 그 활용성이 커지고 있는 초거대 언어 모델의 안전하고 올바른 사용을 위해서 복잡한 모델에 설명성을 부여하는 것은 무엇보다 우선적으로 진행되어야 할 연구일 것이다. 본 고에서 논의한 초거대 언어 모델과 설명 가능한 인공지능 연구 동향이 향후 관련 연구 및 산업 증진에 있어 밑거름이 될 수 있기를 기대한다.

[ 참고문헌 ]

[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser and I.Polosukhin, “Attention is All you Need”, NIPS 2017: 5998-6008.
[2] MIT Technology Review, “2021 was the year of monster AI models”, 2021.
[3] S. Sharma, “ChatGPT creates mutating malware that evades detection by EDR”, CSO, Jun 6, 2023.
[4] C. Stokel-Walker, “ChatGPT can be made to write scam emails and it slashes their cost”, NewScientist, March 3, 2023.
[5] J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin and X. Hu, “Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond”, CoRR abs/2304.13712, 2023.
[6] J. Devlin, M.-W. Chang, K. Lee and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL-HLT(1) 2019: 4171-4186.
[7] OpenAI, “Improving language understanding with unsupervised learning”, openai.com. June 11, 2018.
[8] M. Danilevsky, K. Qian, R. Aharonov, Y. Katsis, B. Kawas and P. Sen, “A Survey of the State of Explainable AI for Natural Language Processing”, AACL/IJCNLP 2020: 447-459.
[9] S. Choudhary, N. Chatterjee and S. K. Saha, “Interpretation of Black Box NLP Models: A Survey”, CoRR abs/2203.17081, 2022.
[10] K. Simonyan, A. Vedaldi, and A. Zisserman, “Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps”, ICLR(Workshop Poster) 2014.
[11] A. Binder, G. Montavon, S. Lapuschkin, K.-R. Muller, and W. Samek, “Layer-Wise Relevance Propagation for Neural Networks with Local Renormalization Layers”, ICANN(2) 2016: 63-71.
[12] M. Sundararajan, A. Taly and Q. Yan. “Axiomatic attribution for deep networks”, In Proceedings of the 34th International Conference on Machine Learning - Volume 70, ICML ’17, 2017, pp.3319–3328.
[13] P. K. Mudrakarta, A. Taly, M. Sundararajan and K. Dhamdhere, “Did the Model Understand the Question?”, ACL(1) 2018: 1896-1906.
[14] S. He, Z. Tu, X. Wang, L. Wang, M. R. Lyu and S. Shi, “Towards Understanding Neural Machine Translation with Word Importance”, EMNLP/IJCNLP(1) 2019: 953-962.
[15] D. Bahdanau, K. Cho and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR 2015. 2015.
[16] J. Vig, “A Multiscale Visualization of Attention in the Transformer Model”, ACL(3) 2019: 37-42.
[17] S. Vashishth, S. Upadhyay, G. Singh Tomar and M. Faruqui, “Attention Interpretability Across NLP Tasks”, CoRR abs/1909.11218, 2019.
[18] S. Wiegreffe and Y. Pinter, “Attention is not not Explanation”, EMNLP/IJCNLP(1) 2019: 11-20.
[19] K. Clark, U. Khandelwal, O. Levy and C. D. Manning, “What Does BERT Look at? An Analysis of BERT's Attention”, BlackboxNLP@ACL 2019: 276-286.
[20] Z. Zhong, D. Friedman and D. Chen, “Factual Probing Is [MASK]: Learning vs. Learning to Recall”, NAACL-HLT 2021: 5017-5033.

* 본 자료는 공공누리 제2유형 이용조건에 따라 정보통신기획평가원의 자료를 활용하여 제작되었습니다.