평범하듯, 흔하지 않게

NVILA: Efficient Frontier Visual Language Models

2025.07.31· 공부하는삶/(v)LLM

왜 NVILA가 필요한가?VLM(Visual Language Model)은 사진이나 영상을 보고 텍스트로 설명하거나 대화할 수 있는 AI 모델이지만 이런 모델을 제대로 훈련시키는 건 엄청나게 비싸고 오래 걸리는 문제가 발생함. 예를 들어, 7B 파라미터를 가진 최신 모델을 훈련하려면 GPU 400일이나 소요하는 문제가 발생 또한, 특수 분야(예: 의료 영상)에 맞추려면 모델을 조금 조정(fine-tuning)해야 하는데, 그 작업도 GPU 메모리 64GB 이상이 필요할 정도로 무거움. 마지막으로 이 모델들을 엣지 장비와 같은 제한된 장비(노트북, 로봇)에서 돌리려고 하면, 너무 많은 연산과 메모리를 필요로 해서 실행하기 어려움.NVILA가 해결한 방법기존 VILA는 이미지 해상도와 영상 길이에 제한이 있..

거대 언어모델(LLM)에 대한 자체 개발 수준에 따른 등급

2025.07.29· 공부하는삶/(v)LLM

이승현 디지털플랫폼 정부위원회 인공지능플랫폼 혁신국장이 제안하고 있는 LLM에 대한 등급 체계 제시하였다.T0 : 외부 폐쇄 API 호출 후 프롬프트·필터만 추가한 LLM- 아키텍처, 가중치 기원은 100% 외산·폐쇄형- 통제나 주권성이 거의 없어 API 계약, 쿼터에 의존- 챗GPT 기반 다수 PoC 서비스가 대표 사례T1 : 폐쇄 가중치에 LoRA, RAG 등 경량 튜닝을 더하는 것 - 중치 불투명성이 특징이며, 통제나 주권성 측면에서 설명 가능성과 재현성이 제한됨 - 의료, 금융 시범 모델, UAE TAMM 3.0, KT 챗GPT-4oK(예정) 등T2 : LLAMA, Qwen 등 공개 가중치 100%를 이용해 전면 추가 학습한 것 - 기반 모델 라이선스 준수가 필요 - 로컬 호스팅, 가중치 수정이..

ChatGPT Prompt 가이드

2025.07.16· 공부하는삶/(v)LLM

아래 내용들은 OpenAI Cookbook에서 제시한 프롬프트 가이드를 정리한 내용이다. 출처프롬프트 예시당신은 다음 역할을 수행합니다:당신은 NewTelco에서 근무하는 친절한 고객 서비스 상담원입니다. 고객의 요청을 효율적으로 처리하면서 주어진 지침을 엄격히 준수해야 합니다.# 지침 (Instructions) - 항상 다음 문구로 고객에게 인사합니다: “안녕하세요, NewTelco입니다. 무엇을 도와드릴까요?”- 회사, 상품, 서비스, 또는 고객 계정에 관한 사실 기반 질문에는 반드시 도구(tool)를 호출한 후에 응답해야 합니다. 직접 알고 있는 지식을 기반으로 답변해서는 안 되며, 반드시 조회된 컨텍스트에만 의존해야 합니다. - 만약 도구 호출을 위해 필요한 정보가 부족하다면, 사용자에게 필요..

[TIL] Multimodal RAG

2025.04.20· 공부하는삶/CV

1. RAG의 본질과 가치LLM은 정보를 학습(1)하거나 외부로부터 가져와 활용(2)할 수 있습니다.(1) Fine-tuning: 가중치 업데이트(2) RAG: 관련 문맥을 프롬프트로 주입 → 최신 정보/사실 기반 응답에 효과적특히 엔터프라이즈 데이터에서 정확한 사실 회상에 RAG는 강력한 접근법2. RAG 향상 기법Base RAG문서 청크 임베딩 후 Top-K 검색LangChain vectorstoresSummary Embedding요약 임베딩 검색 후 원문 전달LangChain Multi Vector RetrieverWindowing청크 검색 후 확장 영역 반환LangChain Parent Document RetrieverMetadata Filtering메타데이터 기반 필터링 검색Self-query..

[TIL] Emerging Properties in Self-Supervised Vision Transformers

2025.02.04· 공부하는삶/CV

Emerging Properties in Self-Supervised Vision TransformersMathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand JoulinIn this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (convnets). Beyond the fact that adapting self-supervised methods to this archite..

[TIL] 데이터 품질의 비밀 3. 데이터 수집, 정제, 변환, 테스트

2024.05.25· 공부하는삶/DataOps

데이터 수집에 초점을 맞추면, 데이터 파이프라인 중 가장 업스트림에 있는 '진입점'은 아마 가장 중요할 것이다. '진입점'은 '외부 세계의 데이터가 파이프라인에 들어오는 초기 접촉 지접'으로 정의할 수 있으며, 진입점의 데이터는 외부 세계의 전형적인 노이즈와 불규칙성을 모두 포함하기 때문에 원시적이다. 데이터 수집 소스는 크게 애플리케이션 로그 데이터, API 응답, 센서 데이터로 나누어 살펴 볼 수 있다.진입점을 통과한 데이터가 거쳐야 하는 다음 단계는 데이터 정제 단계이다. 높은 데이터 품질을 달성하는 데 가장 큰 장애물 중 하나는 데이터 정제이며, 이는 사용 가능한 데이터셋에서 부정확하거나 대표적이지 않은 데이터를 제거하는 것이다. 데이터 정제의 중요성은 머신러닝에서 대두되고 있으며, 어떻게 올바르..

전체 글

티스토리툴바