데이터품질의이해

데이터 수집에 초점을 맞추면, 데이터 파이프라인 중 가장 업스트림에 있는 '진입점'은 아마 가장 중요할 것이다. '진입점'은 '외부 세계의 데이터가 파이프라인에 들어오는 초기 접촉 지접'으로 정의할 수 있으며, 진입점의 데이터는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 포함하기 때문에 원시적이다. 데이터 수집 소스는 크게 애플리케이션 로그 데이터, API 응답, 센서 데이터로 나누어 살펴 볼 수 있다.진입점을 통과한 데이터가 거쳐야 하는 다음 단계는 데이터 정제 단계이다. 높은 데이터 품질을 달성하는 데 가장 큰 장애물 중 하나는 데이터 정제이며, 이는 사용 가능한 데이터셋에서 부정확하거나 대표적이지 않은 데이터를 제거하는 것이다. 데이터 정제의 중요성은 머신러닝에서 대두되고 있으며, 어떻게 올바르..
Hanna 한나
'데이터품질의이해' 태그의 글 목록