공부하는삶/DataOps

2024.05.25· 공부하는삶/DataOps

데이터 수집에 초점을 맞추면, 데이터 파이프라인 중 가장 업스트림에 있는 '진입점'은 아마 가장 중요할 것이다. '진입점'은 '외부 세계의 데이터가 파이프라인에 들어오는 초기 접촉 지접'으로 정의할 수 있으며, 진입점의 데이터는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 포함하기 때문에 원시적이다. 데이터 수집 소스는 크게 애플리케이션 로그 데이터, API 응답, 센서 데이터로 나누어 살펴 볼 수 있다.진입점을 통과한 데이터가 거쳐야 하는 다음 단계는 데이터 정제 단계이다. 높은 데이터 품질을 달성하는 데 가장 큰 장애물 중 하나는 데이터 정제이며, 이는 사용 가능한 데이터셋에서 부정확하거나 대표적이지 않은 데이터를 제거하는 것이다. 데이터 정제의 중요성은 머신러닝에서 대두되고 있으며, 어떻게 올바르..

[TIL] 데이터 품질의 비밀 1-2장

2024.05.21· 공부하는삶/DataOps

데이터 품질에 관한 이슈는 그다지 특별한 것이 아니었다. 저품질 데이터(여기선 잘못된 정보가 담긴 나쁜 데이터와 다른 개념)로 인하여 심하게는 남극의 위치를 잘못 계산하거나, NASA에서 화성 기후 궤도선 사고가 발생하거나 하는 문제가 있었다.데이터 품질은 데이터의 신뢰성(reliability), 완전성(completeness), 정확성(accuracy)를 측정하는 기능적 측면부터 구체화되기 시작했다. 이 책에서는 데이터 품질을 데이터 라이프 사이클에 따라 단계별 상태로 정의한다.많은 기업들이 기존의 시스템에서 적용하였던 데브옵스(DevOps), 신뢰성 엔지니어링(SRE), 지속 통합배표(CI/CD) 및 마이크로서비스 기반 아키텍처 등을 데이터에도 적용시켰다. 요즘엔 데브옵스의 개념을 데이터에 적용하여,..

티스토리툴바