데이터 표준점검 도구_3.표준점검 케이스별 결과

데이터 표준점검 결과 를 케이스별로 나누어 자세하게 살펴본다. 이전 글에서 이어지는 내용이다.

데이터 표준점검 도구_2.3.데이터 표준사전 구성

3. 데이터 표준점검 결과

입력자료의 속성명에 대하여 표준용어와 일치하는 경우, 표준용어는 없으나 일부 또는 전체 단어가 표준단어로 조합되는 경우, 비표준단어를 사용한 속성명에 대하여 대체하는 경우, 동음이의어/이음동의어가 있어 주의해야 하는 경우 등 다양한 데이터 표준점검 결과 를 확인할 수 있다. 점검결과의 내용이 많아서 복잡해 보일 수 있으나, 각 사례별로 자세히 살펴보면 복잡하지 않고 쉽게 이해할 수 있을 것이다.

3.1. 데이터 표준점검 결과 예시

점검 옵션을 “단어조합방향: 좌->우 & 우->좌 모두 선택”, “표준사전찾기: 단어&용어”로 설정하고 점검을 실행했을 때, 다음과 같은 결과를 얻을 수 있다.

표준점검결과 예시
표준점검결과 예시

아래에서 각 예시 Case별로 살펴보자.

3.2. 표준점검 예시 Case #1: 표준용어 일치

입력 속성명이 표준용어사전의 논리명과 일치하는 경우이고, 이 경우 점검결과의 “도메인, Data Type 점검결과”만 확인하여 조치하면 된다. 표준사전찾기 옵션이 “단어&용어” 또는 “용어” 인 경우에 적용된다. 

표준점검 예시 Case #1: 표준용어일치
표준점검 예시 Case #1: 표준용어일치

“표준단어 논리명 조합” 항목에는 underscore(_)문자를 구분자로 표준단어 논리명을 조합하여 표시한다. “표준단어 물리명 조합” 항목에는 표준단어 물리명을 조합하여 표시한다. “표준용어 Type/Size” 항목은 입력 속성명이 표준용어 논리명과 일치하는 경우만 표시한다. “도메인, Data Type 점검 결과” 항목에는 데이터 Type과 길이에 대한 점검결과를 표시한다.

위 예시에서 속성 “국가명”은 표준용어와 논리명은 일치하나 도메인 점검결과 “데이터 길이 불일치”이다. 속성의 데이터 길이를 표준용어 데이터 길이로 늘려서 표준과 일치하도록 조치하면 된다.

도메인 점검결과 불일치 유형은 세 가지이다.

  1. Type 불일치
  2. 길이 불일치
  3. Type과 길이 모두 불일치

일치키는 방법은, 1) 표준용어를 기준으로 속성의 Type/길이를 변경하는 방법, 2) 표준용어의 Type/길이를 변경하는 방법 두 가지가 있다. 상황에 맞게 판단하여 조치하도록 한다.

3.3. 표준점검 예시 Case #2: 표준단어 조합

입력 속성명이 표준용어사전에 없어서 표준단어의 조합을 시도하는 경우이다. 표준사전찾기 옵션이 “단어&용어” 또는 “단어” 인 경우에 적용된다.

표준점검 예시 Case #2-1: 표준단어 조합
표준점검 예시 Case #2-1: 표준단어 조합

속성 “차액유지여부”는 표준단어를 찾아보았을 때, “여부”만 등록되어 있고, 다른 단어는 없는 경우이다. “표준단어 논리명 조합” 항목에 “[차]_[액]_[유]_[지]_여부”로 표시된다. 문자 “[“과 “]” 사이 단어는 미등록단어이다. 이 cell의 배경색은 cell 값에 미등록단어를 표시하는 “[“문자가 포함되어 있어서 조건부서식에 의해 붉은 색으로 설정되었다. “[“, “]” 문자 사이의 연속된 단어는 “추가 후보 단어” 항목에 표시한다. 이 경우, “차액유지”가 추가 후보 단어이다.

입력 속성명에 공백 또는 underscore(_) 문자가 포함되어 있는 경우에는 속성명에 단어의 조합을 사용자가 지정한 것으로 가정하고, 해당 문자를 구분자로 하여 표준단어를 찾아 조합한다.

속성 “개인대상 여부” (Row# 9)는 공백을 포함하고 있다. “표준단어 논리명 조합” 항목에 “[개인대상]_여부”로 표시된 것은, “[개인대상]”은 표준단어사전에 없고, “여부”는 표준단어사전에 있다는 의미이다. 이 cell도 미등록문자가 포함되어 있어 배경색이 붉은 색으로 설정되었다. 속성명에 구분자를 포함하는 경우 “속성명 점검 결과” 항목에 “(사용자 지정)”으로 표시한다.

속성 “소유권보유개월수” (Row# 10)는 “표준단어 논리명 조합” 항목 배경색이 주황색이다. 해당 cell에 행분리 기호가 있을 때 조건부서식에 의해 주황색으로 설정된다. 행분리 기호가 포함된 이유는 단어 조합 방향 “좌->우”, “우->좌” 에 따라 서로 다른 결과가 나왔고, 1행에는 “좌->우” 방향의 조합결과를, 2행에는 “우->좌” 방향의 조합결과를 표시했기 때문이다. 이렇게 조합 방향에 따라 다른 결과가 나올 때 “속성명 점검결과” 항목에 “(조합 패턴 확인필요)”로 표시한다.

속성 “소유권 보유 개월 수” (Row# 12)는 “표준단어 물리명 조합” 항목의 배경색이 녹색이다. 괄호문자(“(“)가 있을때 녹색으로 설정된다. 표준단어의 물리명을 결정하기 전에 논리명에 괄호를 붙여서 지정하면 논리명 기준으로 표준화를 먼저 진행할 수 있다. 괄호문자는 표준단어를 확정하기 전에 속성명의 단어가 어떻게 조합되는지를 확인하는 simulation 용도로 사용한다. 표준단어 물리명은 “(” + 논리명 + “)”을 권장한다. (예: 논리명이 “소유권”인 경우, 물리명을 “(소유권)”으로 설정)

다음의 예시도 살펴보자.

표준점검 예시 Case #2-2: 표준단어 조합
표준점검 예시 Case #2-2: 표준단어 조합

속성 “개인포상금”은 “속성명 종결어 점검결과”가 “단어 없음”이다. 속성명 종결어 “금”이 미등록단어이기 때문이다. “금”이 표준단어로 적합하다면 표준사전에 등록하고, 속성 분류어로 적합하다면 지정하여 조치한다. 표준단어로 적합하지 않거나 속성 분류어로 적합하지 않다면 속성명을 변경한다.

속성 “개인포상개월”은 “속성명 종결어 점검결과”가 “기본 단어”이다. 속성명 종결어 “개월”이 표준단어사전에 등록되어 있으나, 속성 분류어로 지정되어 있지 않기 때문이다. “개월”을 속성분류어로 지정하거나, 속성분류어로 적합하지 않다면 속성명을 변경하여 조치한다.

3.4. 표준점검 예시 Case #3: 비표준단어 사용

비표준단어를 포함하고 있는 속성명에 대한 점검결과를 살펴보자.

비표준단어를 포함한 표준단어사전
비표준단어를 포함한 표준단어사전
표준점검 예시 Case #3: 비표준단어 사용
표준점검 예시 Case #3: 비표준단어 사용

단어 논리명 “사원”이 표준이고, “직원”이 비표준인 경우이다. 비표준단어는 표준 논리명을 필수로 지정해야 한다. 여기에서는 비표준단어 “직원”에 표준 논리명 “사원”이 지정되어 있다.

속성 “직원입사일자”의 점검결과 중 “표준단어 논리명 조합” 항목에 비표준 단어인 “직원”이 표준 단어 “사원”으로 치환되어 표시되었다. “속성명 점검결과”에는 “(비표준단어 확인필요)”로 표시한다.

3.5. 표준점검 예시 Case #4: 동음이의어 사용

옵션에서 “표준단어 논리명 중복(동음이의어) 허용”을 체크한 경우에 확인할 수 있다.

동음이의어를 포함한 표준단어사전
동음이의어를 포함한 표준단어사전
표준점검 예시 Case #4: 동음이의어가 사용된 경우 점검결과
표준점검 예시 Case #4: 동음이의어가 사용된 경우 점검결과

단어 논리명 “시도”가 서로 다른 물리명으로 등록되어 있는 경우이다. 동음이의어를 포함한 속성 “시도명”에 대해 “속성명 점검결과” 항목에 “(동음이의어 확인필요)”로, “표준단어 물리명 조합” 항목에 2가지 조합결과를 표시한다. 이 경우 표준용어사전에 등록할 때 물리명에 주의가 필요하다.

3.6. 표준점검 예시 Case #5: 이음동의어 사용

옵션에서 “표준단어 물리명 중복(이음동의어) 허용”을 체크한 경우에 확인할 수 있다.

이음동의어를 포함한 표준단어사전
이음동의어를 포함한 표준단어사전
표준점검 예시 Case #5: 이음동의어가 사용된 경우 점검결과
표준점검 예시 Case #5: 이음동의어가 사용된 경우 점검결과

단어 물리명 “DAYOFF”가 서로 다른 논리명으로 등록되어 있는 경우이다. 이음동의어를 사용한 속성명은 속성명 점검결과에 “(이음동의어 확인필요)”로 표시한다. 속성 “휴점지역코드” (Row# 19)의 속성명 점검결과에 “(이음동의어 확인필요)”가 표시되지 않은 것은 표준용어가 등록되어 있어서 혼동될 가능성이 없기 때문이다.

이음동의어를 허용하면, 데이터베이스의 컬럼명(=표준용어 물리명)이 2개 이상의 의미로 해석될 수 있어 혼동을 줄 수 있다. 가급적 이음동의어는 허용하지 않는 것이 바람직하다.


지금까지 케이스별로 표준점검결과를 살펴보았다. 다음에는 부가적인 내용과 VBA 소스코드 구성에 대해 살펴보겠다.


데이터 표준점검 도구는 아래 github repository에서 확인할 수 있다.

https://github.com/DAToolset/ToolsForDataStandard


<< 관련 글 목록 >>

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

ko_KR한국어