1. RAG의 본질과 가치LLM은 정보를 학습(1)하거나 외부로부터 가져와 활용(2)할 수 있습니다.(1) Fine-tuning: 가중치 업데이트(2) RAG: 관련 문맥을 프롬프트로 주입 → 최신 정보/사실 기반 응답에 효과적특히 엔터프라이즈 데이터에서 정확한 사실 회상에 RAG는 강력한 접근법2. RAG 향상 기법Base RAG문서 청크 임베딩 후 Top-K 검색LangChain vectorstoresSummary Embedding요약 임베딩 검색 후 원문 전달LangChain Multi Vector RetrieverWindowing청크 검색 후 확장 영역 반환LangChain Parent Document RetrieverMetadata Filtering메타데이터 기반 필터링 검색Self-query..
Emerging Properties in Self-Supervised Vision TransformersMathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand JoulinIn this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (convnets). Beyond the fact that adapting self-supervised methods to this archite..
데이터 수집에 초점을 맞추면, 데이터 파이프라인 중 가장 업스트림에 있는 '진입점'은 아마 가장 중요할 것이다. '진입점'은 '외부 세계의 데이터가 파이프라인에 들어오는 초기 접촉 지접'으로 정의할 수 있으며, 진입점의 데이터는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 포함하기 때문에 원시적이다. 데이터 수집 소스는 크게 애플리케이션 로그 데이터, API 응답, 센서 데이터로 나누어 살펴 볼 수 있다.진입점을 통과한 데이터가 거쳐야 하는 다음 단계는 데이터 정제 단계이다. 높은 데이터 품질을 달성하는 데 가장 큰 장애물 중 하나는 데이터 정제이며, 이는 사용 가능한 데이터셋에서 부정확하거나 대표적이지 않은 데이터를 제거하는 것이다. 데이터 정제의 중요성은 머신러닝에서 대두되고 있으며, 어떻게 올바르..
if results[0].masks is not None: combined_mask = np.zeros(frame.shape[:2], dtype=np.uint8) clss = results[0].boxes.cls.cpu().tolist() masks = results[0].masks.xy for mask, cls in zip(masks, clss): mask_color = colors(int(cls), True) # random_color = tuple(np.random.randint(0, 256, 3).tolist()) # mask_color = (int(random_color[0]), int(random_color[1]), int(random..
데이터 품질에 관한 이슈는 그다지 특별한 것이 아니었다. 저품질 데이터(여기선 잘못된 정보가 담긴 나쁜 데이터와 다른 개념)로 인하여 심하게는 남극의 위치를 잘못 계산하거나, NASA에서 화성 기후 궤도선 사고가 발생하거나 하는 문제가 있었다.데이터 품질은 데이터의 신뢰성(reliability), 완전성(completeness), 정확성(accuracy)를 측정하는 기능적 측면부터 구체화되기 시작했다. 이 책에서는 데이터 품질을 데이터 라이프 사이클에 따라 단계별 상태로 정의한다.많은 기업들이 기존의 시스템에서 적용하였던 데브옵스(DevOps), 신뢰성 엔지니어링(SRE), 지속 통합배표(CI/CD) 및 마이크로서비스 기반 아키텍처 등을 데이터에도 적용시켰다. 요즘엔 데브옵스의 개념을 데이터에 적용하여,..
예전에 다른 회사 면접을 봤을 때, 면접 질문 중 하나가 'WanDB 사용 해 봤어요?' 라는 것이었다. 말만 들어봤지 딱히 사용은 안 해봐서... 프로젝트에 들어가면 반드시 WanDB로 학습하고 있는 것 모니터링을 해보자 결심을 하였다. WanDB는 모델을 학습하면서 데이터셋과 파라미터들을 관리하는 대표적인 MLOps 솔루션이다. 하나의 모델을 파인튜닝을 하다보면 어떤 모델이 최고인지 잊어버리기도 하고 결국 엑셀파일이나 로그파일을 뒤져가면서 정리할 때가 있는데 WanDB는 간단한 명령어를 통해서, 모델의 최적 파라미터들을 관리할 수 있다. WanDB를 로컬에서 사용할 것이라면, 간단하게 회원가입을 진행한 후 해당 터미널에서 아래와 같이 명령어를 입력하고 나서, 로그인후 보이는 API Key를 붙여놓으면..