Data/비교과 데이터라벨링 실무교육

2/6 데이터라벨링 실무교육 정리

안정민 2023. 2. 6. 15:32

1. 데이터 라벨링의 네 가지 사례

(1) 텍스트 데이터

(2) 음성데이터

(3) 광학(ocr)데이터

(4) 영상데이터

 

2. 데이터라벨링의 목적

인공지능 학습용 데이터 구축 사업 확대에 따라 다양한 역량의 수행 및 참여기관 참여로 사업 진청도 및 데이터 품질의 편차 발생

인공지능 학습용 데이터 구축에 보편적으로 적용되는 데이터 유형별로 데이터 구축에 필요한 절차 및 구성요소를 제시하여 데이터 구축 과정에서 시행착오를 줄이고 체계적인 계획 수립을 지원한다.

 

3. 용어 정리

데이터 획득(Data Acquisition)

-인공지능의 기계학습에 필요한 데이터를 현실세계에서 직접 수집 또는 생성하거나, 이미 보유하고 있는 조직이나 시스템으로부터 법률적 제약이 없도록 원시데이터를 확보하는 활동

 

데이터 정제(Data Refinement)

-획득한 원시데이터를 기계학습에 필요한 형식으로 맞추거나 불필요한 중복을 제거하며, 개인정보를 비식별화하여 처리하는 등 일련의 전처리 과정을 통해 원천데이터를 확보하는 활동

 

데이터라벨링(Data Labeling)

-인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동

 

라벨링 데이터 (Labeled Data)

-원천 데이터에 부여한 '참값', 파일 형식이나 해상도 등의 속성, 그리고 설명이나 주석 등이 포함된 '어노테이션'의 집합

 

원시데이터(Raw Data)

-기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터

이 두 개념의 구분이 중요

원천데이터 (Source Data)

- 원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제작업을 수행한 데이터로

-라벨링 데이터가 부여되지 않은 상태의 데이터

 

인공지능 학습용 데이터 구축

-임무 정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동

 

어노테이션 (Annotation)

-데이터 라벨링 시 원천 데이터에 주석을 표시하는 작업을 의미

-추가 부착되는 설명정보 데이터는 기능 목적에 따라 다양한 형태로 표현될 수 있으며 이러한 설명정보 표현 방식을 지칭

-용어 사용 예) 사물 바운딩 박스 어노테이션

 

광학 문자 인식 (ocr)

-사람이 쓰거나 기계로 인쇄한 문자의 영상을 기계가 읽을 수 있는 문자오 변환하는 것