인공지능 공정성 기준 연구 동향


고기혁  ||  한국과학기술원 팀장


*   본 내용은 고기혁 팀장(☎ 042-350-8374, gihyuk.ko@kaist.ac.kr)에게 문의하시기 바랍니다.

**   본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.


I. 서론

 인공지능 기반 기술은 컴퓨터비전, 음성인식, 광고ㆍ추천시스템 등 기술적인 혁신을 주도하였을 뿐만 아니라 신용평가[1], 범죄 예측[2], 채용 및 입학[3] 등 개인의 삶에 큰 영향을 미칠 수 있는 분야에도 빠르게 확장ㆍ적용되고 있다. 하지만 사회경제학적으로 큰 영향을 미칠 수 있는 결정에 인공지능 기반 기술을 활용하는 데에는 법 및 윤리적인 제약이 필요불가결하게 따르게 되며, 가치판단을 배제하고 단순히 주어진 태스크만을 효율적으로 수행하고자 한다면 여러 가지 사회적인 부작용이 나타날 수 있다. 이와 같은 부작용의 대표적인 예시로 인공지능 불공정성(unfairness) 문제를 들 수 있는데, 이는 인공지능 모델이 학습되는 과정에서 통계적으로 최적화된 표상(representation)만을 학습하였을 때 학습 데이터에 존재하는 성별, 인종, 혹은 나이 등으로 구분 지어지는 사회적 약자 그룹에 대한 편향(bias)이 그대로 학습되어 인공지능이 차별적(discriminative)인 판단을 내리게 되면서 생겨난 문제이다.
 이같이 인공지능 기술을 사용함으로써 발생하는 불공정성 및 차별은 몇 가지 실례를 통해서도 살펴볼 수 있다. 대표적인 예시로서 지난 2016년 비영리 미디어 재단인 프로퍼블리카(ProPublica)는 미국 사법부가 사용하는 범죄 위험평가 소프트웨어에서 활용된 알고리즘 COMPAS[4]가 흑인 수감자들에 대해 편향된 예측값을 도출한다고 주장한 바 있다[5]. 또한, 미국의 전자상거래 대기업인 아마존(Amazon)에서 지난 2014년 효율적인 인력 채용을 위해 도입한 구직자 평가 알고리즘이 여성 지원자보다 남성 지원자를 차별적으로 선호하는 행위를 보여 인공지능 기반 채용을 중단하는 사건이 있었다[6]. 덧붙여, 구글(Google)의 구직광고 플랫폼은 동일한 조건의 여성 구직자보다 남성 구직자에게 고임금 직업 광고를 6배 이상 보여줌으로써 성별 간 고용기회 불평등을 조장한다는 논란을 빚은 바 있다[7].
 세계 각국에서는 이러한 불공정성 문제의 중요성과 시급성을 인지하여 차별적인 인공지능을 방지하고자 제도적인 노력을 아끼지 않고 있다. 유럽연합, 미국, 중국 및 일본 등의 나라에서 2018년과 2019년에 인공지능 윤리와 관련된 규범을 제정한 데 이어, 한국 또한 지난 2020년 「사람이 중심이 되는 인공지능 윤리기준」을 제정하여 “상용화된 인공지능은 모든 사람에게 공정하게 적용되어야 함(③ 다양성 존중)”을 강조한 바 있다. 제도 및 정책적인 노력뿐 아니라 학계에서도 인공지능의 전 주기에서 발생하는 편향을 효과적으로 없애기 위하여 활발한 연구를 계속해 오고 있다. [그림 1]은 인공지능 대표 학회인 NeurIPS에서 발표된 논문 중 인공지능 공정성 및 편향과 관련된 논문의 개수 추이로 2017년부터 공정성 관련 연구들이 큰 폭으로 증가하였으며, 최근까지도 증가하고 있음을 확인할 수 있다.

<자료> Human-Centered Artificial Intelligence(HAI), The AI Index 2022 Annual Report, Stanford University, 2022.

[그림 1] 인공지능 대표 학회 NeurIPS의 논문들 중 공정성 및 편향 관련 논문 개수

 인공지능 기술이 우리 삶에서 뗄 수 없는 필수불가결한 요소로 자리 잡고 성별, 나이 등의 민감 속성을 포함한 사회경제학적 데이터가 인공지능 서비스와 적극적으로 융합되어 활용되고 있는 만큼 인공지능 공정성 확보의 중요성은 점차 증대되고 있다. 본 고에서는 인공지능에서 발생할 수 있는 불공정성 문제를 해결하기 위한 노력의 일환으로서 개발된 다양한 인공지능 공정성의 기준들을 그 분류에 따라 소개하고 현재까지 개발되어 온 공정성 기준들이 가지는 한계점을 분석함으로써 인공지능 공정성 연구의 추후 방향을 제시한다. 먼저 II 장에서 인공지능 공정성의 기준들에 대해 살펴보고, III 장에서는 현재까지 수행된 인공지능 공정성 연구의 한계점을 분석한다. 끝으로 IV 장에서 본 고의 결론을 제시한다.


 


II. 인공지능 공정성 기준과 분류

 공정한 인공지능은 어떻게 규정할 수 있을까? 인공지능이 이해할 수 있는 공정성은 수학적으로 명확히 정의되어 정량적인 평가가 가능해야 한다. 이에 따라 공정성 관련 연구들은 공정한 인공지능 모델이 지녀야 할 공정성 원칙을 먼저 수학적인 기준으로서 정의하고, 이러한 기준에 어긋나지 않는 모델을 공정한 인공지능으로써 규정한다. 공정성을 정의하는 다양한 공정성 원칙에 따라 지금까지 총 20개가 넘는 인공지능 공정성 기준이 제안되어 왔다[8].
[표 1]은 인공지능 공정성 기준을 구성하는 요소를 요약하였다. 인공지능이 개인정보를 사용하여 “합격/불합격”, “위험/안전” 등 긍정/부정 판단을 내리는 경우, 공정성은 개인정보를 구성하는 여러 속성(attribute)과 인공지능이 내린 판단 결과에 따라 다양한 유형으로 규정된다. 특히, 개인이 지닌 속성 중 성별, 인종, 나이, 종교 등 차별의 원인이 되어서는 안 되는 속성을 민감 속성(sensitive attribute)으로 정의하고 인공지능 모델이 내리는 판단이 민감 속성에 따라 크게 변하지 않아야 한다는 조건을 명시한다.

[표 1] 인공지능 공정성 기준의 구성 요소

분류 요소 설명 예시
개인
속성
민감 속성
(보호된 속성)
차별의 원인이 되어서는 안 되는 개인의 속성 성별, 인종, 나이, 종교, 장애 여부, 성적 정체성 등
비민감 속성 개개인을 구분하는 속성 중 민감 속성이 아닌 속성 이름, 연봉, 직업, 신용 기록, 시험 점수, 범죄 기록 등
대리 변수
(proxy attribute)
비민감 속성 중 민감 속성과 관련된 속성 구매 이력(성별과 관련)
거주 지역(인종과 관련)
해소 변수
(resolving attr.)
비민감 속성 중 민감 속성과 관련되어 있지만, 주어진 인공지능 태스크에 활용해도 공정성을 해치지 않는 속성 연봉 및 직업(나이와 관련)
범죄 이력(인종과 관련)
판단
결과
인공지능
예측 결과
주어진 개인에 대해 인공지능 모델이 내린 최종 판단 대출 승인/거부
범죄 위험/안전
인공지능
예측 점수
주어진 개인에 대해 인공지능 모델이 예측한 점수 예측된 신용 점수
예측된 재범 위험도
실제 결과
(ground truth)
주어진 개인에 대한 실제 결과값
(판단을 내리기 이전에는 알 수 없음)
실제 대출 상환 여부
실제 재범 여부

<자료> 한국과학기술원 사이버보안연구센터 자체 작성


 인공지능의 공정성 기준은 크게 두 가지 분류로 나뉜다. 바로 성별, 인종이나 나이 등 서로 다른 집단 구성원들 간의 공정성을 논하는 그룹 공정성(Group Fairness)과 개인마다의 공정성을 정의하는 개별 공정성(Individual Fairness)이다. “남녀 간의 임금이 공정하게 배분되어야 한다”는 공정성 기준은 그룹 공정성에 속하지만, “업무 능력이 유사한 두 사람의 임금은 유사해야 한다”는 기준은 개별 공정성에 속하는 것이다. 전자의 경우 주로 통계적 기준으로서, 후자의 경우 주로 개인 간 유사성을 기반으로 규정되는데, 최근 인공지능이 판단을 내리는 과정을 인과적으로 분석함으로써 공정성을 규정하는 연구들 또한 활발하게 지속되어오고 있다. 본 장에서는 이와 같은 분류에 따라 통계적, 유사도 기반 및 인과적 정의로서의 공정성을 소개한다.

1. 통계적 정의로서의 공정성

 공정한 인공지능은 성별, 인종 등의 민감 속성으로 구분된 서로 다른 집단을 동등하게(혹은 유사하게) 취급하며, 그 결과로서 인공지능이 내리는 판단은 각 집단에서 (통계적으로)크게 차이 나지 않을 것이다. 이러한 통찰에서 파생된 통계적 공정성은 서로 다른 집단에서 인공지능 판단에 대한 통계 수치가 같거나 비슷해야 한다는 기준을 내세운다.
 일례로, 통계적 공정성으로서 가장 먼저 제안된 (인구)통계적 동등성(Statistical Parity, Demographic Parity)[9]은 인공지능이 모든 집단에 대해 균등한 긍정/부정 확률로 판단하여야 한다고 규정한다. 즉, 남성 지원자들을 80%의 확률로 고용하기로 하였다면 여성 지원자들에 대해서도 동일하게 80%의 확률로 고용해야 한다는 것이다.
span class="blank1"> 인공지능이 각 집단의 구성원들에게 내린 판단(긍정/부정)과 실제 예측 결과의 빈도수로부터 [표 2]와 같이 다양한 통계 수치를 도출할 수 있으며, 이들 수치 각각이 민감 속성으로 분리된 집단마다 같아야 한다는 조건의 공정성 기준들을 정의할 수 있다. 대표적인 예시로서 Hardt 등에 의해 제안된 가능성의 동등성(Equalized Odds)[10] 공정성은 인공지능 판단이 가지는 양성 정탐율(True Positive Rate: TPR) 및 오탐율(False Positive Rate: FPR)이 집단마다 같아야 한다는 기준으로, ProPublica의 고발로 널리 알려진 COMPAS 알고리즘의 경우 백인들에 대한 긍정적 오류(즉, 거짓 양성) 비율이 흑인들에 비해 현저하게 높게 나타나 가능성의 동등성 기준을 위배하였다. 역시 같은 논문에서 제안된 공정성 기준으로서, 기회의 동등성(Equal Opportunity)[10] 은 인공지능 판단의 양성 정탐율이 집단 간 같아야 한다고 규정한다.

[표 2] 인공지능 공정성 분류결과표(Confusion Matrix) 및 그에 따른 통계 수치

  실제 결과: 양성(긍정) 실제 결과: 음성(부정)
예측 결과:양성(긍정) 참 양성(True Positive, TP)
양성 예측도(PPV) = TP/(TP+FP)
양성 정탐율(TPR) = TP/(TP+FN)
거짓 양성(False Positive, FP)
거짓 발견율(FDR) = FP/(TP+FP)
오탐율(FPR) = FP/(FP+TN)
예측 결과:
음성(부정)
거짓 음성(False Negative, FN)
거짓 누락율(FOR) = FN/(TP+FN)
미탐율(FNR) = FN/(TN+FN)
참 음성(True Negative, TN)
음성 예측도(NPV) = TN/(TN+FN)
음성 정탐율(TNR) = TN/(TN+FP)

<자료> S. Verma and J. Rubin, Fairness definitions explained. Proceedings of the International Workshop on Software Fairness, FairWare@ICSE 2018, 2018.


 심층신경망을 포함한 많은 인공지능 모델은 승인/거부와 같이 단순 예측 결과만을 출력하는 것이 아닌 “승인될 확률”, “위험 점수” 등의 형태로 정량적인 수치를 먼저 예측하고, 이에 따라 결과를 도출하는데, 정량적인 점수를 예측하는 인공지능 모델 또한 특정 집단에 불리하게끔 점수를 부여하는 등 불공정한 판단을 내릴 수 있다. 이와 같은 불공정성을 방지하기 위해 제안된 보정된 형평성(calibration)[11] 은 인공지능이 예측한 점수가 모든 집단에 대해 유사한 의미를 지녀야 함을 강조한다. 만약, 흑인 범죄자의 재범 위험 점수가 7점으로 예측되었다면, 그 사람이 실제 범죄를 일으킬 확률은 동일한 점수를 받은 백인 범죄자와 동일하거나 유사해야 한다는 것이다. 이러한 기준은 인공지능으로부터 부여된 점수(score)의 의미가 공정해야 한다는 것으로, 테스트 공정성(test fairness)이라고도 불린다[12].

2. 유사성 기반 공정성

 통계적 공정성은 성별, 인종 등의 민감 속성으로 분리된 집단 간의 공정성을 규정하므로 민감 속성 이외의 비민감 속성은 일절 고려하지 않는다. 이에 따라 통계적 공정성 기준을 만족시키기 위해 실제로 사회경제적으로 보다 더 능력 있는 구성원이 부당한 처우를 받게되는 결과를 초래할 수 있다. 이러한 역차별을 해소하고자, 개인 간 유사성을 기반으로 한 공정성 기준들이 제안되었다.
 유사성 기반의 인공지능 공정성은 개인의 민감 속성과 관계없이 비민감 속성이 동일하거나 유사하다면 인공지능의 판단 역시 동일하거나 유사해야 한다고 규정한다. 대표적인 예로서 인과적 공정성(causal fairness)[13]은 모든 비민감 속성이 동일한 두 사람에 대한 예측 결과가 동일해야 한다고 규정함으로서 민감 속성이 판단에 영향을 주는 것을 방지한다. 사회 경제학적 능력이 완벽히 동일한 두 사람에 대해 동일한 예측을 내놓아야 마땅하다는 것이다.  이와 유사한 기준인 무지를 통한 공정성(fairness through unawareness)[14]은 인공지능의 판단 과정에 성별, 인종, 나이 등의 민감 속성이 직접적으로 사용되지 않아야 한다는 조건을 제시한다. 두 공정성 모두 인공지능이 민감 속성을 직접 사용하지 못하도록 방지하는 것이 보다 공정한 판단이라고 규정하지만, 민감 속성을 직접적으로 사용하지 않고서도 그와 연관되어 있는 대리 변수(proxy attribute)로부터 민감 속성을 유추하여 사용할 수 있기 때문에 이들은 일반적으로 공정성 개념으로서 충분치 않다고 받아들여진다[15].  Dwork 등이 제안한 자각을 통한 공정성(fairness through awareness)[9]은 인과적 공정성의 개념을 정량적으로 확장하여 인공지능이 유사한 개인을 비슷하게 취급해야 한다는 조건을 제안하였다. 서로 다른 두 사람 간의 유사성을 정량화할 수 있는 거리 법(distance metric)이 주어졌을 때, 그들에 대한 인공지능 예측의 차이는 유사도 거리(similarity distance)에 비례하거나, 유사도보다 낮아야 한다는 것이다. 이러한 공정성 기준은 유사성 기반 공정성의 표준으로서 널리 받아들여져 단순히 “개별 공정성(individual fairness)”이라고 지칭되기도 한다.

3. 인과적 정의로서의 공정성

 지금까지 살펴본 공정성의 기준들은 인공지능을 일종의 블랙박스로서 간주하고 그 입출력이 가지는 통계적 경향성에 따라 규정되었다. 하지만 최근 활발히 연구되고 있는 인과적 공정성 연구는 인공지능 입출력만을 살펴보는 것이 아니라 인공지능 모델이 판단을 내리는 과정에 민감 속성이 어떤 인과적 역할을 하였는지를 분석함으로써 공정성을 판단한다. 인공지능 판단에 대한 인과적 추론 관계를 분석하기 위해 인과 그래프(causal graph)를 활용하는데, 이는 속성들 간의 원인-결과를 화살표로 잇는 방향성 비순환 그래프(directed acyclic graph)이다. [그림 2]는 인과 그래프의 예시를 보여준다.

  • (a) 투병 중인 환자의 생존 여부(survived)를 결정하는
    요인들에 대한 인과 그래프

  • (b) 직장인의 임금(wage)을 결정하는 요인들에 대한 인과 그래프

<자료> “Causal Inference for The Brave and True“, https://matheusfacure.github.io/python-causality-handbook

[그림 2] 오일러 기법과 잔차 연결

 만약, 개인의 성별이나 인종이 인공지능이 판단을 내리는 데에 직간접적인 원인을 제공하게 된다면 특정 집단에 대해 불리한 판단을 내리게 될 가능성이 있다. 이러한 차별을 방지하기 위해 제안된 공정성 기준인 반사실적 공정성(counterfactual fairness)은 민감 속성이 인공지능 판단과 독립되어야 하며[14], 인공지능 예측에 아무런 인과적 영향을 주지 말아야한다고 규정한다. 이는 인과 그래프를 통해 쉽게 확인할 수 있는데, [그림 2b]에서 IQ는 임금을 결정하는 지능(intelligence)에 의해 영향을 받지만, 그 자체로서는 임금을 결정하는 데에 아무런 인과적 영향을 주지 못하는 것을 확인할 수 있다.
 Kilbertus 등은 민감 속성이 인공지능 예측에 영향을 주었는지의 여부보다 그 방식이 더 중요하다고 역설하여 두 가지의 새로운 공정성 개념을 제시하였다[16]. 저자들은 먼저 민감 속성과 인과적으로 관련되어 있으나 정당하게 사용할 수 있는 속성을 “해소 변수”(resolving attribute)로 사용할 수 없는 속성을 “대리 변수”(proxy attribute)라고 명명하였다. 이어서 해소 변수와 대리 변수의 정의에 따라, 민감 속성이 인공지능 예측에 “해소 변수들을 통해서만 인과적 영향을 미칠 수 있다”는 기준과 “대리 변수들을 통해서 인과적 영향을 줄 수 없다” 는 기준의 공정성을 각각 해소되지 않은 차별의 부재(No unresolved discrimination), 대리 변수 차별의 부재(No proxy discrimination)로서 규정하였다. 제시된 공정성 기준들은 인공지능 판단의 인과관계에 대한 상세한 분석을 통해 이루어지는 만큼 구체적인 요인 분석이 가능하다[16].

[표 3] 인공지능 공정성 기준

분류 요소 설명
통계적
정의
(인구)통계적 동등성
(Statistical Parity)
집단별 인공지능이 예측한 빈도수/확률이 동등
기회의 동등성
(Equalized Odds)
집단별 인공지능 예측의 양성 정탐율(TPR)과 오탐율(FPR)이 동등
가능성의 동등성
(Equal Opportunity)
집단별 인공지능 예측의 양성 정탐율(TPR)이 동등
보정된 형평성
(Calibration)
인공지능 예측한 점수가 집단 별로 유사한 의미를 가짐
유사성 기반 인과적 공정성
(Causal Fairness)
비민감 속성이 동일한 개인에 대해 인공지능 예측이 동일
무지를 통한 공정성
(Fairness Through Unawareness)
민감 속성이 인공지능 판단 과정에 직접적으로 사용되지 않음
자각을 통한 공정성
(Fairness Through Awareness)
유사한 개인에 대해 인공지능 예측이 비슷
인과적 정의 반사실적 공정성
(Counterfactual Fairness)
민감 속성이 인공지능 예측에 직간접적인 인과적 영향을 주지 않음
해소되지 않은 차별의 부재
(No unresolved discrimination)
민감 속성이 인공지능 예측에 해소 변수를 통해서만 인과적 영향을 줌
대리 변수 차별의 부재
(No proxy discrimination)
인공지능 예측에 민감 속성 대리 변수를 통한 인과적 영향이 없음

<자료> S. Verma and J. Rubin, Fairness definitions explained. Proceedings of the International Workshop on Software Fairness, FairWare@ICSE 2018, 2018.


 


III. 인공지능 공정성 기준 연구의 한계점

 지금까지 다양한 인공지능 공정성의 기준들을 그 분류에 따라 살펴보았다. 본 장에서는 현재까지도 활발하게 진행되고 있는 인공지능 공정성 연구가 가지는 여러 가지 한계점과 앞으로의 연구 방향을 논의한다.

1. 상충하는 공정성 기준

 인공지능 공정성 기준 연구의 가장 큰 문제점 중 하나는 다양한 공정성 기준들이 상충한다는 것이다. 이는 개별 공정성의 개념이 처음 제안된 배경에서도 분명히 나타나는데, 두 집단 간 평균적인 능력에 차이가 크게 나는 경우 그룹 공정성을 만족시키기 위해 높은 능력을 지닌 집단의 구성원들이 역차별당 할 수 있기 때문이다. Binns[17]는 이와 같은 개별 공정성과 그룹 공정성 간의 상충은 원리적인 충돌이 아닌 인공지능이 활용되는 상황에 적용하는 과정에서 부가적으로 발생한 현상으로서 실제 현장에서 발생하는 불공정 요소에 대한 분석을 통해 해결할 수 있다고 역설하였지만, 실용적인 해결책은 제시하지 못하였다.
 개별 공정성을 배제하고 그룹 공정성만 고려하더라도 상충되는 기준들이 존재한다. Chouldechova[12]와 Kleinberg 등[18]은 각각 독립적으로 그룹 공정성 기준들 중 가능성의 동등성(Equalized Odds)과 보정된 형평성을 동시에 만족시킬 수 있는 인공지능은 모든 예측을 오류 없이 해내는 완벽한 모델일 수밖에 없다는 불가능성 정리를 증명하였다. Pleiss 등[19]은 이러한 충돌을 해결하기 위해 일반화된 양성 정탐율(Generalized TPR)과 일반화 된 오탐율(Generalized FPR)을 정의하고 기존의 통계적 공정성 기준들을 이에 맞추어 수정하는 것을 제안한 바 있으나, 수정된 공정성 기준에 대한 직관적인 해석이 어렵다는 한계점이 있다.
 이러한 문제를 해결하기 위해 여러 공정성 기준들이 가지는 이론 및 실질적 관계에 대해 면밀하게 분석하여 공정성 기준들을 단순화, 더 나아가 단일화하는 과정이 필요하다. 특히, 공정성 기준 간 위계적 순서에 관한 연구는 이러한 문제를 해결하는 데에 큰 도움이 될 것이다.

2. 공정성 기준 만족의 어려움

 인공지능 공정성의 기준들이 간단한 수식을 통해 정의되는 것에 반해 이를 실제 현장 데이터에 적용하여 공정한 인공지능 모델을 확보하는 것은 매우 복잡하고 까다롭다. 이는 통계적 공정성에서 두드러지는데, 많은 경우에 “불공정 요소의 부재”로서의 공정성을 규정하는 것이 아닌 처음부터 “이상적인 공정함”을 정의하고 그에 가까워지고자 하는 방안을 찾기 때문이다.
 인과적 공정성의 경우 인공지능 판단에 영향을 주는 모든 요소를 포함한 인과 그래프가 전제되어야 한다는 점에서 더욱 까다롭다. Hardt 등[10]은 인공지능의 입출력만을 기반으로 정확한 인과적 구조를 파악하는 것은 불가능하다는 것을 보여 인과 그래프에 대한 정밀한 모델링 없이는 공정성을 판단할 수 없다는 것을 강조하였다.
 공정성이 보장된 인공지능 모델을 확보하였다고 하더라도 실제 성능이 떨어진다면 문제가 될 것이다. 단적인 예로 모든 사람에게 무작위로 점수(혹은 결과)를 배분하는 인공지능 모델은 통계적 동등성을 만족하지만, 누구도 이것을 ‘공정’하다고는 논하지 못할 것이다. 이러한 문제를 방지하기 위해서는 높은 성능을 유지하면서 공정성 또한 보장할 수 있는 효과적인 인공지능 학습 방법의 개발이 필요하다.

3. 절차적, 상호작용 공정성과 형평성

 본래 공정성을 사회과학 분야에서 연구하고 있는 연구자들에 따르면 공정성은 크게 분배적, 절차적 그리고 상호작용 공정성의 세 가지 종류로 나뉜다. 분배적 공정성은 자원이 올바로 분배되었는지, 절차적 공정성은 의사결정의 절차가 공정하였는지 그리고 상호작용 공정성은 의사결정 단계에서 구성원들 간 태도에 따라 공정한 대우를 받았는지를 각각 규정한다. 인공지능 공정성의 경우 대부분 수학적으로 정의할 수 있는 분배적 공정성에 국한되어 있어 절차적 및 상호작용 공정성에 관한 후속 연구가 필요하다.
 실제 사회자원을 배분하는 데에 인공지능 기반 기술을 활용하고자 한다면, 공정성 이외에도 사회적 약자를 배려하는 등의 형평성(equity) 원칙 또한 고려되어야 한다. 유한한 자원을 모두에게 공평하게 배분하는 알고리즘을 개발하는 공정 배분(fair division) 관련 연구들이 형평성에 대해 논의하고 있다. Golz 등[21]은 본 고에서 살펴본 통계적 공정성과 공정 배분의 기본 원리들을 동시에 만족할 수 있는지를 연구하였으나, 이론적인 상충 관계의 분석에 그쳐 형평성에 이르기 위한 보다 실질적인 방안 연구가 필요하다.

4. 다른 편향 이슈들

 대부분의 인공지능 공정성 기준은 인공지능의 입출력과 민감 속성을 사용하여 단순하게 정의되어 왔다. 하지만 실제 ‘불공정하다’고 판단하는 것은 이보다 다양한 요소들이 복합적으로 작용하여 나타나는 현상으로, 현재까지 제시된 인공지능 공정성의 기준으로 해소하지 못하는 편향이 분명히 존재한다.
 그 대표적인 예시로서 인공지능이 특정 집단에 대한 고정관념(stereotype)을 잘못 학습하여 대표성 편향(representation bias)을 부추길 수 있다. 이는 자연어나 이미지 등 복잡한 표상을 다룰 때 현저하게 나타나는데, 대표적인 예시로 구글 번역(Google Translate)이 ‘의사’와 ‘간호사’를 각각 남성과 여성의 직업으로서 오역하여 논란을 일으킨 바 있다. 유사한 예시로 구글 포토(Google Photos)의 이미지 자동 태깅(tagging) 서비스는 흑인들을 고릴라라고 잘못 태그하여 사회적인 논란을 빚은 바 있다. Kay 등[20]은 이와 같은 고정관념으로 인해 일어날 수 있는 대표성 편향 문제들을 제기하고 그를 해결하기 위한 초기 연구를 진행하였다.


 


Ⅳ. 결론

 본 고에서는 인공지능 공정성 기준의 최근 연구 동향을 살펴보았다. 인공지능 기반 기술의 폭발적인 활용과 함께 활발하게 지속되어 온 인공지능 공정성 연구들은 성별, 인종 등의 민감 정보가 인공지능이 내리는 판단에 미치는 영향을 최소화하기 위한 다양한 공정성 기준들을 규정하고 이를 만족시키려는 방법들을 고안하였다. 하지만 현재까지 제안된 공정성의 기준들은 상충하거나 실질적으로 만족하기 어렵다는 한계점이 있으며, 절차적, 상호작용 공정성, 형평성이나 고정관념의 관철을 통한 공정성 문제 등 현재까지 제안된 공정성 기준으로는 해결할 수 없는 불공정성 문제들 또한 존재하였다. 이러한 한계점을 해결하기 위해서는 여러 공정성 기준들을 그 위계적 순서에 따라 단순화함으로서 현실적으로 만족시킬 수 있는 기준들을 개발해야 한다. 무엇보다 현재의 수학적인 공정성 정의에 국한하지 않고 실례를 바탕으로 더욱 폭넓은 공정성의 개념을 다루는 연구가 필요할 것이다.
 인공지능 공정성의 확보는 4차 산업혁명 시대의 핵심 기술인 인공지능 기반 기술의 적극적인 활용에 필수불가결한 전제 조건이다. 전 세계가 더욱 안전하고 윤리적인 인공지능 개발에 힘쓰고 있는 오늘날, 보다 공정한 인공지능의 실무적인 적용을 위해 국가적인 차원에서의 아낌없는 지원이 필요할 것이다. 무엇보다 공정성은 사회적이고 윤리적인 개념이며, 통계적이고 수학적인 개념이 아니라는 점에서 출발하여 국내외 학계 및 각국 정부에 이르는 국제적인 협력을 통해 올바른 인공지능 공정성이란 무엇인지에 대한 활발한 논의가 이루어져야 할 것이다. 본 고에서 논의한 인공지능 공정성 연구 동향과 한계점, 그리고 앞으로의 연구방향이 올바른 인공지능 공정성 확보에 밑거름이 되기를 기대한다.


 



[ 참고문헌 ]

[1] A. E. Khandani, A.J. Kim and A. W. Lo, Consumer credit-risk models via machine-learning algorithms. Journal of Banking & Finance, 2010, 34(11):2767-2787.
[2] T. Brennan, W. Dieterich and B. Ehret, Evaluating the predictive validity of the compas risk and needs assessment system, Criminal Justice and Behavior, 2009, 36(1):21-40.
[3] M. Bogen and A. Rieke, Help wanted: an examination of hiring algorithms, equity and bias, Technical Report, Upturn, 2018.
[4] Human-Centered Artificial Intelligence(HAI), The AI Index 2022 Annual Report, Stanford University, 2022.
[5] J. Angwin, J. Larson, S. Mattu and L. Kirchner, Machine Bias, ProPublica, 2016.
[6] J. Dastin, Amazon scraps secret AI recruiting tool that showed bias against women, Reuters, 2018.
[7] J. Carpenter, Google’s algorithm shows prestigious job ads to men, but not to women, Here’s why that should worry you, The Washington Post, 2015.
[8] S. Verma and J. Rubin, Fairness definitions explained, Proceedings of the International Workshop on Software Fairness, FairWare@ICSE 2018, 2018.
[9] C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel, Fairness Through Awareness, In Proceedings of the 3rd Innovations in Theoretical Computer Science Conference, 2012.
[10] M. Hardt, E. Price and N. Srebro. Equality of Opportunity in Supervised Learning. Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, 2016.
[11] R. Berk, H. Heidari, S. Jabbari, M. Kearns, and A. Roth. Fairness in criminal justice risk assessments: The state of the art. Sociological Methods & Research, 2018.
[12] A. Chouldechova. Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments. Big Data 5(2), 2017, 153-163.
[13] S. Galhotra, Y. Brun and A. Meliou. Fairness testing: testing software for discrimination. Proceedings of the 2017 11th Joint Meeting on Foundations of Software Engineering, ESEC/FSE 2017, 2017, 498-510.
[14] M. J. Kusner, J. R. Loftus, C. Russell and R. Silva, Counterfactual Fairness, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 2017.
[15] A. Datta, M. Fredrikson, G. Ko, P. Mardziel and S. Sen, Proxy Non-Discrimination in Data-Driven Systems. CoRR abs/1707.08120, 2017.
[16] N. Kilbertus, M. Rojas-Carulla, G. Parascandolo, M. Hardt, D. Janzing and B. Scholkopf, Avoiding Discrimination through Causal Reasoning, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 2017.
[17] R. Binns, On the apparent conflict between individual and group fairness. FAT*’20: Conference on Fairness, Accountability and Transparency, 2020.
[18] J. M. Kleinberg, S. Mullainathan and M. Raghavan, Inherent Trade-Offs in the Fair Determination of Risk Scores. 8th Innovations in Theoretical Computer Science Conference(ITCS), 2017.
[19] G. Pleiss, M. Raghavan, F. Wu, J. M. Kleinberg and K. Q. Weinberger, On Fairness and Calibration, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 2017.
[20] M. Kay, C. Matuszek and S. A. Munson, Unequal Representation and Gender Stereotypes in Image Search Results for Occupations. Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems(CHI), 2015.
[21] P. Golz, A. Kahng, A. D. Procaccia, Paradoxes in Fair Machine Learning. Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, 2019.

* 본 자료는 공공누리 제2유형 이용조건에 따라 정보통신기획평가원의 자료를 활용하여 제작되었습니다.