모든 데이터를 연결하는 데이터 표준화


이수민  ||  한국지능정보사회진흥원 연구원
전형하  ||  한국지능정보사회진흥원 선임연구원


*   본 내용은 이수민 연구원(☎ 053-230-1540, suminlee@nia.or.kr)에게 문의하시기 바랍니다.

**   본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

I. 서론

 데이터는 공적 마스크 및 요소수 대란 등 다양한 사회 현안을 해결하고, 경제의 새로운 패러다임을 선도하고 있다. 기업과 개인은 행정ㆍ공공기관이 수집 및 생산, 보유하고 있는 공공 데이터와 민간 데이터를 활용함으로써 경쟁력을 높이고 있다. 데이터의 양이 많아지고 다양해질수록 데이터는 여러 산업에서 활용되며 새로운 부가가치를 창출하고 있다. 데이터가 수집ㆍ생성되는 원천은 다양하기 때문에 전혀 다른 형태로 저장되는 경우가 많다. 각기 다른 명칭과 형식으로 정의된 방대한 데이터를 동일한 의미로 이해하고 활용하기 위해서는 데이터 표준화가 필수적으로 실시되어야 한다. 데이터 표준화는 무수히 많은 데이터를 효율적으로 활용하기 위한 대표적인 방법이다.
 표준화란 사물, 개념, 방법 및 절차 등에 대해 합리적인 표준(standard)을 설정하고, 이를 따르고 활용하기 위한 규칙, 지침, 가이드 등을 만드는 조직적 행위이다. 표준화는 제품이나 서비스 등 다양하게 활용되는 개념이며, 표준화를 통해 호환성과 효율성을 높일 수 있다. 또한, 데이터 표준화란 데이터의 명칭ㆍ설명ㆍ형식 등을 일관되게 적용하는 일련의 활동을 의미한다. 일반적으로 데이터는 여러 가지 출처로부터 수집되는데, 다양한 형식과 길이의 데이터가 산재되어 있다. 이러한 데이터를 효율적으로 활용하기 위해서는 같은 의미의 데이터를 찾고 형식을 맞춰주는 데이터 표준화 작업이 필요하다. 데이터의 명칭과 설명 등을 비교하여 같은 의미끼리 연결하는 매핑 작업을 해야 하고, 데이터의 타입이나 길이를 동일한 형식으로 가공해야 한다. 일련의 데이터 표준화 작업은 데이터를 정확한 의미로 파악할 수 있게 돕는다.
 데이터 표준화는 데이터 생애주기에 따라 크게 최초 수집ㆍ생성 시점 또는 제공 시점에 표준화하는 것으로 구분할 수 있다. 처음으로는 최초 수집ㆍ생성하는 시점에 표준화하는 방법이 있다. 이 방법은 가장 초기 단계인 데이터 모델을 만들 때부터 데이터 구성의 최소 단위인 항목(컬럼) 등에 표준을 적용함으로써 생성 시부터 표준화된 명칭과 형식으로 데이터가 저장되게 한다. 이를 통해 데이터 연계 시 추가적인 표준화 작업이 필요 없도록 하는 것이다. 두 번째로는 제공 시점에 데이터를 표준화하는 방법이다. 일반적으로 기관 간 데이터를 연계하여 활용하려면, 제공기관 및 활용기관 간 연계표준과 기준 등 연계정보를 협의해야 한다. 연계정보는 송ㆍ수신 주기와 항목명 및 데이터 타입ㆍ길이를 포함한다. 데이터를 연계하는 기관이 적고 데이터를 제공하는 업무적 목적이 제한적이라면 효과적인 결과가 도출될 수 있다. 하지만 여러 기관과 다양한 업무 목적으로 연계가 필요하다면, 제공할 때마다 표준화하는 방식은 추가의 시간과 비용이 발생하므로 비효율적이다. 한시적이고 제한적인 표준화는 기관 간 데이터 융ㆍ복합과 유연한 대응을 어렵게 하기도 한다[3]. 데이터를 구축하는 것은 건물을 짓는 것과 마찬가지로, 데이터가 정보시스템(DB) 등에 구축된 이후에는 변경하는데 많은 비용과 시간이 수반된다. 따라서 기관에서는 첫 번째 방식으로 언급한 최초 수집ㆍ생성 시점에 데이터를 표준화할 수 있도록 우선 실시하고, 두 번째 방식으로 부족한 부분을 보완하여 데이터의 품질을 확보하는 것이 좋다. 앞서 언급한 두 가지 방식이 항목 단위로 표준화하는 것이라면, 항목의 집합인 데이터셋을 표준화하여 제공하는 방법도 있다. 대표적으로는 행정안전부에서 제ㆍ개정하는 “공공데이터 제공 표준”이 이러한 방식이다. 공공 데이터 활용 시 추가 비용 소요를 방지하고 편의성 제고를 위해 데이터셋을 표준화하여 제공함으로써 일관성과 통일성을 확보하고 있다.
 데이터 표준화를 통한 대표적인 산출물은 항목(컬럼)으로 활용되는 표준용어라고 할 수 있다. 표준용어란 데이터 사용자 간의 명확한 의사소통을 위해 데이터베이스에서 의무적으로 사용해야 하는 용어의 표준을 정의한 것을 말한다[2]. 표준용어를 활용하면 의미를 일관성 있고 정확하게 전달할 수 있다. 표준용어는 물리 데이터베이스의 컬럼명을 도출하기 위해 선행되는 작업의 결과물이다. 일반적으로 표준용어를 정의할 때 한글용어명과 영문약어명을 모두 정의하는데, 한글용어명은 논리모델링을 통해 엔터티의 속성명으로 활용되고 영문약어명은 물리 모델링을 통한 데이터베이스의 컬럼명이 된다. 표준용어는 [그림 1]과 같이 단어의 조합으로 구성되며, 용어별로 다른 도메인이 적용된다. 단어는 의미를 갖는 최소 단위이며, 단어 중 “명, 일시, 번호” 등으로 끝나는 단어들은 도메인을 포함한다. 도메인은 데이터 타입과 데이터 길이 등을 포함하는 개념이다. 내부의 표준화 정책에 따라 만들어진 표준용어들은 목록을 사전화하여 관리하며, 표준용어사전에 정의된 용어로 속성명과 컬럼명을 정의하게 된다. 동일한 방법으로 표준용어뿐만 아니라 표준단어, 표준도메인, 표준코드도 관리한다.

<자료> 행정안전부, “공공데이터베이스 표준화 관리 매뉴얼”, 2022. 재구성

[그림 1] 표준용어 구성 예시

데이터 표준화 작업은 업무의 효율화를 위해 개별 업무ㆍ시스템으로는 표준화된 경우가 많지만 통합하여 표준을 관리하는 경우는 드물다. 요즈음에는 다양한 분야에서 데이터 결합이 발생하므로, 전사적으로 표준화를 진행하지 않으면 기관 내에서 데이터를 활용하는 데에 큰 어려움이 발생한다. 그렇기에 폭 넓은 범위에서 표준화를 실시하고 표준을 관리해야 한다.


 


II. 국내 데이터 표준화 현황

 데이터 활용의 증가로 민간에서는 여러 기관ㆍ분야의 데이터를 융ㆍ복합, 연계하여 활용하고자 하는 수요가 증가하였다. 그러나 범정부 차원의 데이터 표준이 제정되기 전에는 기관ㆍDB별로 독자적인 표준을 수립하여 적용하고 있었다. 따라서 동일한 의미를 갖는 용어가 다양한 명칭과 형식으로 정의되어 데이터를 활용하는 것에 어려움이 있었다[3]. 전사 차원에서 데이터 표준화를 하면 많은 DB가 통일성을 가지듯, 범정부가 표준화를 주도한다면 행정ㆍ공공기관의 다양한 분야의 정보시스템에 적용됨으로써 파급력은 엄청날 것이다. 기관이 표준화된 용어를 활용하여 데이터의 의미가 명확해지고, 데이터 가공을 위한 시간과 비용을 절감하는 효과도 발생한다. 확보한 시간과 비용으로는 업무담당자들이 과학적인 행정 업무를 하며 사회의 현안 해결과 새로운 부가가치 창출에 힘쓸 수 있을 것이다. 따라서 행정ㆍ공공기관 간 데이터 연계를 위해 범정부 차원의 데이터 표준화가 선행되어야 한다. 재난안전정보 등 다양한 분야에서도 데이터를 공동 활용하기 위해 데이터를 표준화하는 방식에 대해 연구하고 표준화를 적용 중이다.
 앞서 개념적으로 언급한 데이터 표준화는 『공공데이터의 제공 및 이용 활성화에 관한 법률』 제23조(공공데이터의 표준화), “공공기관의 데이터베이스 표준화 지침”에 따라 범정부 차원에서 주도하고 있다. 국내 데이터 표준화를 위해 2020년 8월부터 ‘공통표준용어’를 제정하고 있고, “공공데이터베이스 표준화 관리 매뉴얼”을 통해 행정ㆍ공공기관이 구축 시부터 효율적으로 데이터 표준화 활동을 수행할 수 있도록 한다. 행정안전부가 데이터 표준화 추진을 총괄 수행하며, 공공데이터활용지원센터(NIA)가 전문기관으로서 지원하고 있다.

<자료> 행정안전부, “공공데이터베이스 표준화 관리 매뉴얼”, 2022. 재구성

[그림 2] 데이터 표준화 절차

 데이터 표준화는 [그림 2]의 절차에 따라 실시할 수 있다. 먼저, 데이터의 현황 분석을 진행해야 한다. 현황 분석은 표준화 대상 데이터베이스나 테이블, 컬럼 등을 수집하여 분석할 수 있고, 기존에 표준용어가 있었다면 포함하여 검토할 수 있다. 분석 후에는 관리항목을 정의하고 표준화 원칙을 정의해야 한다. 그 후 단어, 도메인, 용어 순으로 표준화를 진행하면 된다. 단어 표준화를 통해 단어 단위로 분할하여 단어 사전을 생성하고, 데이터 형식 및 속성을 고려하여 도메인을 정의할 수 있다. 이후에는 용어가 단어와 도메인을 결합하여 구성하도록 용어 표준화를 실시해야 한다. 표준화 진행 후에는 표준화 결과물을 검토하여 확정하는 절차를 거쳐야 한다. 일련의 과정을 통해 수립된 데이터 표준은 지속적으로 관리해야 한다. 범정부 데이터 표준인 공통표준용어도 [그림 2]와 같은 표준화 과정을 거쳐 제정되었다.
 [그림 3]의 ‘공통표준용어’란 『공공데이터의 제공 및 이용 활성화에 관한 법률』 제23조(공공데이터의 표준화), “공공기관의 데이터베이스 표준화 지침”에 따라 공공 데이터를 누구나 같은 의미로 이해하고 같은 방식으로 사용할 수 있도록 정의한 것이다[2]. 용어의 명칭(한글, 영문, 영문약어)과 형식(타입, 길이)을 표준화하여 제공하며, ‘가입일시’, ‘신청자주민등록번호’ 등 공통적으로 사용되는 용어를 중심으로 표준화하여 1,686개의 용어를 제정 및 보급하고 있다(2023년 2월 기준).

<자료> 행정안전부, “공공데이터베이스 표준화 관리 매뉴얼”, 2022. 재구성

[그림 3] 공통표준용어 구성

<자료> 행정안전부, “공공데이터베이스 표준화 관리 매뉴얼”, 2022. 재구성

[그림 4] 공공데이터 표준의 관계

 공공기관의 데이터베이스 구축 시 적용해야 하는 표준 유형은 공통표준, 기관 데이터 표준, DB 데이터 표준으로 구분된다. 범정부 차원에서는 [그림 4]의 공공데이터 표준의 관계를 계층적으로 제시함으로써 기관 간 데이터가 손쉽게 연계되어 데이터 산업이 활성화될 수 있는 초석을 마련하고 있다. [그림 4]는 “공통표준-기관표준-DB표준”으로 구성된 공공 데이터 표준 관계이며, 행정ㆍ공공기관이 업무 수행에 적용하는 표준은 상위의 표준을 준용해야 한다. 이러한 표준은 데이터베이스 설계 계획, 구축, 개선, 운영 등 데이터베이스 생명주기 전체에서 준수해야 한다. 지침에 따라 표준 준수ㆍ적용 여부 등은 공공 데이터 품질관리 수준진단ㆍ평가 및 품질인증, 정보시스템 감리 등을 통해서도 점검되고 있다.
 공통표준용어는 행정ㆍ공공기관이 실제로 사용하는 데이터를 기반으로 표준을 만듦으로써 여러 기관에서 사용 중인 일반적인 업무 용어를 포함하고 있다. 공통표준용어는 기관이 공동 활용할 수 있도록 대표성을 띠는 용어들로 정의하였다. 공통표준용어와 동일한 의미의 용어는 용어이음동의어로 관리함으로써 표준화 범위를 확대해 기관의 편의성을 도모하였다. 범정부 차원의 표준용어인 공통표준용어는 다양한 장점이 있다.
 공통표준용어의 첫 번째 장점은 행정ㆍ공공기관 간 데이터 연계ㆍ활용 시 발생되는 비용과 노력을 절감할 수 있다는 것이다. 각급 기관에서는 기관의 내부적인 원칙에 따라 용어의 명칭과 설명, 형식을 각기 다르게 정의하고 있었다. 과거와 달리 범정부 차원에서 데이터에 대한 명칭과 형식을 표준으로 전 기관에 보급함으로써, 데이터의 의미를 파악하기 위해 낭비되던 시간을 줄일 수 있다. 또한, 데이터 전처리 등 가공에 들어가던 수고를 줄이고, 기관 데이터 간의 연결성을 강화할 수 있다[7].
 두 번째로는 일정 수준 이상의 품질 확보가 가능하다는 점이다. 예시로 살펴보자면, 공통표준용어 중 ‘주민등록번호’는 ‘CHAR13’이라는 도메인을 갖는다. ‘CHAR(고정길이 문자형)’ 데이터 타입으로 사용하고 데이터 길이는 ‘13’으로 사용해야 한다는 의미다. 날짜ㆍ시간, 금액, 코드 등의 데이터는 지정된 형식 외의 데이터가 입력되면 전혀 다른 정보가 되며 시스템 등에서 오류가 발생할 수도 있으므로 형식 준수에 주의해야 한다. 이렇듯 데이터의 형식은 매우 중요한데, 일반적으로 생성하고 연계되는 데이터는 범정부 차원의 공통표준용어를 준수하기만 하더라도 일정 수준 이상의 데이터의 품질 확보가 가능하다. 데이터 표준을 적용한다면 데이터의 입력 오류를 방지할 수 있고, 데이터의 정합성 및 유효성을 향상시킬 수 있다.
 세 번째로는 기관 자체적으로 실시하는 표준화 작업의 소요예산과 시간을 절감하는 효과가 있다. 이전에는 개별 DB별로 표준이 달랐으나, 업무의 효율화를 위해 전사적 표준을 적용하는 형태가 늘어나고 있다. 공통표준을 적용하더라도 기관의 업무 특성에 따라 기관 차원에서 개별적인 데이터 표준화를 실시하게 된다. 여러 업무영역 간의 표준을 통합하거나 신규로 표준을 정의할 때도 공통표준을 참조한다면 표준화 작업의 소요 시간이 단축된다. 또한, 데이터를 활용하는 다양한 사람들이 쉽게 이해할 수 있어 편리하다. 기관 내 시스템의 데이터를 통합하거나 연계할 때도 표준화된 데이터를 활용한다면 표준화를 위한 비용과 시간이 획기적으로 줄어든다. 개별 기관에서 중복적으로 발생하고 있던 예산을 국가 차원에서 절감할 수 있는 것이다. 실제로 많은 행정ㆍ공공기관에서는 공통표준용어와 공공기관의 표준화 관리 매뉴얼을 참고하여 기관 자체 표준화 작업을 실시하고 있다. 민간에서도 공통표준용어 등을 참고함으로써 표준화 업무에 대한 부담을 줄일 수 있다.
 마지막으로는 데이터 표준화 이해도 제고를 장점으로 꼽을 수 있다. 공통표준용어는 표준 단어로 구성되고 표준도메인을 적용하는 등 체계가 확립된 용어이다. 또한, 표준 정의 방식과 제정 절차 등을 명문화함으로써 데이터 표준화 개념을 공식화하였다. 정보화사업 담당자와의 인터뷰 결과, 공통표준용어의 대표적 효과를 “표준 이해도 제고”라고 답변한 경우가 많았다. 매뉴얼을 통해 공통표준용어의 절차와 선정 및 정의 기준, 설명 등 자세한 내용을 안내하고 있기 때문이다. 범정부 차원에서 공통표준에 대한 홍보와 교육을 진행함으로써 다양한 이해관계자가 데이터 표준화에 대한 이해도를 제고할 수 있도록 돕고 있다.

 


III. 주요 국가별 데이터 표준화 동향

 미국은 공공 및 민간 간 효율적인 데이터 교환을 위한 표준용어와 데이터 교환 모델 NIEM(The National Information Exchange Model)을 2006년부터 제공하고 있다. NIEM을 통해 동일한 대상에 대해 서로 다른 명칭으로 사용하던 용어들을 표준화하여 일관성 있게 재사용할 수 있도록 용어, 의미, 데이터 도메인(데이터 타입, 데이터 길이 등)을 제공하고 있다. [그림 5]의 NIEM은 19개 분야별 표준용어와 모든 분야에 공통으로 적용할 수 있는 표준용어(NIEM Core)를 제공하며, NIEM Core의 구조는 표준 타입, 세부 속성으로 구분된다. 예를 들어, 표준 타입은 nc:ActivityType이면 nc는 NIEM Core의 약자이며, ActivityType (하나 또는 하나 이상의 관련된 동작(action), 이벤트 또는 프로세스 단계의 집합)을 의미한다. 그리고 하위 속성으로는 nc:ActivityIdentification 용어(활동 식별자)가 있으며, 이 용어는 nc:IdentificationType 데이터 타입을 적용한다. 이 타입을 적용하는 용어는 다양하므로 해당 용어에 적용할 수 있는 데이터 타입 목록을 제공하고 있다. 그리고 분야별 표준용어 중 재난 관리(Em Mgt) 분야를 살펴보면 응급사고(em:EmergencyIncidentType) 개념에 사고요약, 사고최초발표일자 등 [표 1]과 같은 다양한 용어와 타입 등이 제공된다. NIEM을 통해 긴급 재난 상황이 발생했을 때 별도의 데이터 정제 및 가공을 최소화하여 민간과 공공에서 효과적으로 데이터를 실시간으로 공유 및 활용이 가능해진다.

<자료> https://www.niem.gov/about-niem

[그림 5] NIEM(The National Information Exchange Model) 구성

[표 1] NIEM 제공 용어 예시

용어명(번역) 용어명 타입
사고요약 em:IncidentSummaryText nc:TextType
사고최초발표일자 em:IncidentPublishDate nc:DateType
최신갱신일자 em:IncidentUpdateDate nc:DateType
원인이 된 사고 em:ParentIncident em:EmergencyIncidentType
파생사고 em:ChildIncident em:EmergencyIncidentType
관련사고 em:RelatedIncident em:EmergencyIncidentType
대응행동 코드 em:IncidentActionCode em:IncidentActionCodeType

* 재난관리(Em Mgt) 분야, 응급사고(em:EmergencyIncidentType) 개념

<자료> https://www.niem.gov/about-niem 재구성

 그리고 미국 재무부(Bureau of the Fiscal Service)에서는 정부기관의 재무 데이터의 투명성 확보를 위해 DATA Act Information Model Schema(DAIMS)를 통해 데이터 표준을 제공한다. [그림 6]의 DAIMS는 미국 재무부에 데이터를 제공할 때 공공기관이 데이터 요소와 코드를 추가할 수 있게 확장 가능하도록 설계되었으며 DAIMS를 통해 연방 지출을 쉽게 추적하고 분석하여 투명성과 책임성을 높인다. 또한, 수동 데이터 입력 및 데이터 가공 프로세스 비용을 줄여 재무 데이터 활용의 효율성을 향상하고자 한다. 그리고 DAIMS 아키텍처와 기술문서를 제공하고 있어 민간 개발 업체가 데이터법 요구사항에 따라 재무 데이터를 재무부에 보고할 수 있는 소프트웨어를 개발하는 것에 사용된다.

 유럽은 EU 전역에서 데이터 스페이스(DataSpace) 개발을 목표로 하는 유럽연합(EU) 이니셔티브이다. 이 프로젝트는 데이터를 활용한 디지털 경제를 창출하려는 EU의 광범위한 디지털 단일 시장 전략이다. EU 국가 내 모든 데이터를 물리적 통합을 목표로 하지 않고 데이터가 생성 및 수집되는 곳을 데이터 스페이스를 통해 관리 및 표준화 연계를 하는 방식으로 운영될 예정이다. 모든 DB를 통합할 수 있는 공통 DB 스키마를 가지지 않으며 데이터 간의 시멘틱(의미 기반) 수준의 통합 중심으로 접근하고 있다. 따라서, 데이터 스페이스에서는 DB 간의 상호운용성을 보장하기 위한 용어(어휘)를 갖는 것을 매우 중요하게 판단하고 있다. 데이터가 분산되어 있으므로 특정 출처의 데이터만 원본으로 인정하는 방식이 아니라 데이터가 여러 곳에 중복으로 관리하도록 한다. 즉, 데이터 원본을 만들고 데이터 일관성을 유지하는 것을 필수로 보지 않으며, 특정 도메인에 대한 공유 디지털트윈을 형성하고 모든 참여자에게 데이터를 공유하고 공동으로 사용할 기회를 제공하고자 한다. 아직 실증적 근거가 부족하고 참여자에게 충분한 인센티브를 제공하기 위한 방안에 대한 고민이 필요한 상황이다.

<자료> http://dataspaces.info/common-european-data-spaces

[그림 7] DATA SPACES 구성

 


Ⅳ. 결론

 국내외 데이터 표준과 함께 데이터 표준화의 중요성을 소개했다. 데이터 표준화는 데이터의 의미와 형식 등을 정의함으로써 데이터를 이해할 수 있게 하고, 다른 데이터와 연결하는 데 도움을 준다. 정부나 전사 차원에서 표준을 수립하더라도 표준을 활용하지 않는다면 무용지물이 된다. 따라서 업무담당자뿐만 아니라 의사결정권자 및 시스템 구축 업체 등 다양한 이해관계자가 데이터 표준화의 필요성을 인지하고, 데이터 표준관리에 대한 공감대를 형성하는 것이 중요하다. 범정부에서는 담당자들이 업무적 역량을 강화할 수 있도록 품질ㆍ표준 교육 프로그램을 운영 중이다. 또한, 공통표준을 확산시키기 위해 공통표준용어를 확대하여 제정할 계획이며, 현재의 비표준 정보는 표준화할 수 있도록 표준과 매핑하여 변환ㆍ관리하도록 지원할 예정이다[6].



[ 참고문헌 ]

[1] 행정안전부, “공공데이터의 제공 및 이용 활성화에 관한 법률(공공데이터법)”, 2020.
[2] 행정안전부, “공공기관의 데이터베이스 표준화 지침”, 2021.
[3] 행정안전부, “공공데이터베이스 표준화 관리 매뉴얼”, 2022.
[4] 한국데이터베이스진흥센터, “데이터아키텍처 전문가 가이드”, 2013.
[5] 김병식, 이동섭, “재난정보관리를 위한 재난안전데이터 표준화 기술 개발”, 물과 미래 : 한국수자원학회지, Vol.52(No.1), 2019, pp.40-51.
[6] 공공데이터전략위원회, “공공데이터 개방, 네거티브 방식으로 전환한다!”, 2022.
[7] 행정안전부, “행정안전부, ‘공공데이터 공통표준용어’ 신규 제정”, 2020.
[8] https://www.niem.gov/about-niem
[9] https://fiscal.treasury.gov/data-transparency/DAIMS-current.html
[10] http://dataspaces.info/common-european-data-spaces
[11] https://youtu.be/cG520gPBjaY

* 본 자료는 공공누리 제2유형 이용조건에 따라 정보통신기획평가원의 자료를 활용하여 제작되었습니다.