데이터 수집에 초점을 맞추면, 데이터 파이프라인 중 가장 업스트림에 있는 '진입점'은 아마 가장 중요할 것이다. '진입점'은 '외부 세계의 데이터가 파이프라인에 들어오는 초기 접촉 지접'으로 정의할 수 있으며, 진입점의 데이터는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 포함하기 때문에 원시적이다. 데이터 수집 소스는 크게 애플리케이션 로그 데이터, API 응답, 센서 데이터로 나누어 살펴 볼 수 있다.진입점을 통과한 데이터가 거쳐야 하는 다음 단계는 데이터 정제 단계이다. 높은 데이터 품질을 달성하는 데 가장 큰 장애물 중 하나는 데이터 정제이며, 이는 사용 가능한 데이터셋에서 부정확하거나 대표적이지 않은 데이터를 제거하는 것이다. 데이터 정제의 중요성은 머신러닝에서 대두되고 있으며, 어떻게 올바르..
전체 글
공부한 것, 배운 것들을 기록합니다if results[0].masks is not None: combined_mask = np.zeros(frame.shape[:2], dtype=np.uint8) clss = results[0].boxes.cls.cpu().tolist() masks = results[0].masks.xy for mask, cls in zip(masks, clss): mask_color = colors(int(cls), True) # random_color = tuple(np.random.randint(0, 256, 3).tolist()) # mask_color = (int(random_color[0]), int(random_color[1]), int(random..
데이터 품질에 관한 이슈는 그다지 특별한 것이 아니었다. 저품질 데이터(여기선 잘못된 정보가 담긴 나쁜 데이터와 다른 개념)로 인하여 심하게는 남극의 위치를 잘못 계산하거나, NASA에서 화성 기후 궤도선 사고가 발생하거나 하는 문제가 있었다.데이터 품질은 데이터의 신뢰성(reliability), 완전성(completeness), 정확성(accuracy)를 측정하는 기능적 측면부터 구체화되기 시작했다. 이 책에서는 데이터 품질을 데이터 라이프 사이클에 따라 단계별 상태로 정의한다.많은 기업들이 기존의 시스템에서 적용하였던 데브옵스(DevOps), 신뢰성 엔지니어링(SRE), 지속 통합배표(CI/CD) 및 마이크로서비스 기반 아키텍처 등을 데이터에도 적용시켰다. 요즘엔 데브옵스의 개념을 데이터에 적용하여,..
예전에 다른 회사 면접을 봤을 때, 면접 질문 중 하나가 'WanDB 사용 해 봤어요?' 라는 것이었다. 말만 들어봤지 딱히 사용은 안 해봐서... 프로젝트에 들어가면 반드시 WanDB로 학습하고 있는 것 모니터링을 해보자 결심을 하였다. WanDB는 모델을 학습하면서 데이터셋과 파라미터들을 관리하는 대표적인 MLOps 솔루션이다. 하나의 모델을 파인튜닝을 하다보면 어떤 모델이 최고인지 잊어버리기도 하고 결국 엑셀파일이나 로그파일을 뒤져가면서 정리할 때가 있는데 WanDB는 간단한 명령어를 통해서, 모델의 최적 파라미터들을 관리할 수 있다. WanDB를 로컬에서 사용할 것이라면, 간단하게 회원가입을 진행한 후 해당 터미널에서 아래와 같이 명령어를 입력하고 나서, 로그인후 보이는 API Key를 붙여놓으면..
- 이 포스트는 macOS(apple silicon)기준으로 작성을 하였다 kubectl 설치 쿠버네티스 커맨드 라인 도구인 kubectl을 사용하면 쿠버네티스 클러스터에 대해 명령을 실행할 수 있다. kubectl 을 사용하여 애플리케이션을 배포하고, 클러스터 리소스를 검사 및 관리하고, 로그를 볼 수 있다. kubectl 전체 명령어를 포함한 추가 정보는 kubectl 레퍼런스 문서에서 확인할 수 있다. 1. 최신 릴리스를 다운로드한다. ## 특정 버전을 설치할 경우 $(curl -L -s https://dl.k8s.io/release/stable.txt) 대신 다른 버전을 입력 ex. v1.22.4 curl -LO "https://dl.k8s.io/release/$(curl -L -s https:/..
1. Install CVAT1. 구축 환경OS : Ubuntu도커 설치 필수NVIDIA 드라이버 설치 되어 있어야 함NVIDIA-Container-Toolkit 설치되어 있어야 함2. 설치 방법https://opencv.github.io/cvat/docs/administration/basics/installation/최신 버전으로 설치할 경우 도커를 올리고 접속하면, Cannot connect to the server 문제가 발생하므로, 가능하면 2.2.0 버전으로 설치할 것을 추천함(2024.03 기준 최신 모델로 진행해보니 문제 없었음)Cannot connect to the serverMake sure the CVAT backend and all necessary services (Database, ..