목록Data/K-MOOC 데이터 엔지니어링 (2)
archive

1. 실세계 데이터셋에 대한 분석 예제 -여러 알고리즘과 변수의 적절한 배치를 통해 실세계 데이터셋의 총 줄 수, 최대값, 최소값 등을 구하여 실세계 데이터 셋에 대해 분석하여 데이터를 파악한다. -> 실세계 데이터 셋 처리 2. 데이터 구조 사용의 필요성 이해 - 줄 수, 최댓값, 최소값 등을 각각의 클래스로 만들어 한 번 실행할 때마다 파일을 읽어오는 것은 불편한 알고리즘임 - 각각의 논리 코드를 하나의 클래스 내부의 메소드로 지정하여 호출하면 파일을 한 번만 읽어와도 된다 -> 데이터 저장 - 데이터 구조를 활용하기 위해서는 개념을 먼저 이해하고, 생성하는 법, get과 set 조작, 순회하는 법 등을 배워 이를 활용하면 된다. ex) - 자료구조 (Data Structure): 정보에 대해 효율적..
데이터 엔지니어링 : 특정 목적의 서비스를 만들기 위해 빅데이터의 파이프라인을 설계 및 구축하는 것 (데이터 취사 선택-> 수집 -> 가공 -> 저장->분석, 시각화 -> 시스템구축 의 과정을 거치게 된다) 1. 데이터 처리 과정 1) 데이터 수집 - 여러 데이터 소스에 따라 데이터 소스 수집 방법이 다양 -ex) API 호출, 센서 신호 읽기, 파일 읽기, 데이터 베이스 접근 -데이터를 사용하고 있는 메타 데이터는 샵으로 시작되며, 나머지 줄은 사실관계가 탭으로 나누어져 각 줄로 제공 2) 데이터 가공 -데이터 저장을 위한 형태로 데이터 처리, 추상화, 파싱, 검증, 정제 등의 작업을 수행할 수 있음 -ex) 데이터 명세 (메타 데이터) 무시, 중복 데이터 제거, 누락데이터 제거, 결함데이터 제거, 토..