Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Tags
more
Archives
Today
Total
관리 메뉴

archive

2/7 데이터라벨링 실무교육 정리 본문

Data/비교과 데이터라벨링 실무교육

2/7 데이터라벨링 실무교육 정리

안정민 2023. 2. 7. 16:24

데이터라벨링의 장점

1) 작업을 한 만큼의 페이가 적용된다

2) 어떠한 공간에서도 작업이 가능하다

3) PC에 대한 큰 이해도가 필요하지 않다

4) 대부분 국책사업으로 진행

 

데이터라벨링의 단점

1) 매번 프로젝트가 있는 것이 아님 (비수기와 성수기 존재, 성수기는 6-12월 연말), 지속적인 벌이는 초보자에게 힘듦

2) 데이터 처리에 대하여 가이드라인을 따르지 않으면 반려를 당함, 해당 건에 대한 임금을 받지 못 함

3) 일과 일상의 경계가 무너짐, 사람과의 접촉이 없음, 소속감을 느끼기 어려움

4) 눈 건강, 손목건강

 

 

1. 텍스트 데이터 (Text Data)

-텍스트 데이터 구축의 목적

한국어 구어체 텍스트 기반의 정보 검색, 대화 분석, 질의응답, 명령어 이해, 언어 모델 학습 등의 자연어처리

AI기술 개발을 위한 한국인의 일상 대화 메신저 채팅 데이터 구축

한국인들이 일상생활 속 메신저를 통한 텍스트커뮤니케이션에서 사용하는 대화방식과 표현 및 어휘를 처리할 수 있는 언어 모델 연구

정보 검색, 대화 엔진, 질의응답, 명령어 이해 등

++ 산업분야) Ai 상담센터 챗봇, 개인비서, 스마트 홈 등 한국어 구어 자연어 처리 엔진이 필요한 산업

 

-텍스트데이터 구축 단계

(1) 수집

원천 데이터를 수집하는 대상 선정 (저작권 확인, 문장형식 검토) 및 텍스트 형태의 원천 데이터 수집

(2) 정제

부적합한 데이터 삭제 및 목적에 맞게 데이터 수정

(3) 가공

1차 번역물을 생성하고 기계번역을 활용하거나 사람이 초벌 번역, 초벌번역 오류 수정 및 문장 개선, 필요에 따라 리뷰를 2단계로 수행

(4) 검사

전체 번역 문장 평가/ 검증을 위해 별도 기관이 검사하는 외부 검사 실행, 검사 결과물을 가공 담당자에게 전달하여 조치 요청, 조치 후 결과 확인, 가장 중요한 단계, 결과물의 반려 여부를 결정하는 단계

(5) 활용

결과를 기존 번역 업무에 활용, NMT 학습 후 활용하거나 번역 메모리(TM)으로 활용

단일 언어 또는 이중 언어 연구에 활용

** 추천 작업 https://jobs.crowdworks.kr/

 

2. 원시데이터 

인공지능 학습용 데이터 구축에 필요한 원시데이터 항목을 검토하고, 각 항목 별로 데이터 획득에 필요한 정보

데이터 획득 정보, 획득 방법, 획득 단계에서 필요한 요건 등들을 검토하여 문서화한다.

원시데이터 대상 및 획득 방법을 육하원칙에 따라 정의할 수 있다

**** 개인정보는 원시데이터에 있어서 가장 중요한 축 - "개인정보 비식별화"

: 대화 및 자료에 포함이 된 인명, 얼굴 등의 개인정보는 모두 비식별화

 

-원시데이터 획득 시 주의 및 고려사항: 법 및 제도 준수

:데이터 획득 대상, 획득 방법이 법과 제도를 저촉하거나 또는 사회윤리에 어긋나지 않도록 한다.

:기술적인 절차) 데이터 유형별로 적용할 수 있는 익명처리 기법

:텍스트데이터) 이름, 민감정보 키워드 데이터 변환 등

:이미지 및 동영상 데이터) 모자이크, 블러 처리, 크롭(자르기 등) 

 

-원시데이터 획득 시 주의 및 고려사항: 인공지능 학습용 데이터의 윤리성 검토

ex) 국내 업체에서 개발한 챗봇, 성차별성 및 인종차별성 표현 그리고 성소수자와 장애인에 대한 혐오표현을 여과없이 표현하며 사회적 문제가 된 결과 서비스 일시 중단

: 데이터 편향 방지 및 윤리 준수

:인공지능 학습 모델이 인간의 빈윤리 또는 편견을 학습하지 않고 사회적 윤리를 준수할 수 있도록 비윤리적 내용, 편견, 편향된 데이터 획득은 지양한다.

:딥페이크 분류, 가짜뉴스, 비속어 필터링 등 비윤리 및 편향, 왜곡된 정보특성을 학습하는 것을 목적으로 구축하는 데이터는 예외로 할 수 있다.

 


 

<<실습>> Suite Annotation App 사용해서 실습해 보기

 

키포인트 라벨링 작업

차량 폴리곤 라벨링 작업