slm-factory 사용 흐름 도메인 문서에서 RAG API 서빙까지 3단계 흐름 도메인 문서 PDF · HWP · HWPX · HTML · DOCX · TXT · MD slf tune --chat 13단계 자동화 파이프라인 RAG API 서빙 http://localhost:8000

빠른 시작

  1. 준비
    slm-factory를 설치하고, Ollama를 실행하고, 프로젝트를 생성합니다.
    # 설치 (./setup.sh가 uv, 의존성, Ollama 모델을 자동 처리합니다)
    git clone https://github.com/DevDnA/slm-factory.git
    cd slm-factory
    ./setup.sh
    
    # 프로젝트 생성 + 문서 추가
    slf init my-project
    cp /path/to/documents/*.pdf my-project/documents/
  2. 실행 — 명령어 하나로 전체 파이프라인 + RAG 서버
    slf tune --chat --config my-project/project.yaml

    13단계 파이프라인(파싱 → QA 생성 → 검증 → 학습 → Ollama 배포 → RAG 인덱싱)이 자동으로 실행되고, 완료 후 RAG API 서버가 시작됩니다. 서버는 foreground로 실행되며, Ctrl+C로 종료할 수 있습니다.

  3. 확인 — API로 즉시 질의
    curl -X POST http://localhost:8000/v1/query \
      -H "Content-Type: application/json" \
      -d '{"query": "우리 회사 휴가 정책은?"}'
    {
      "answer": "연차 휴가는 입사 1년 후 15일이 부여되며...",
      "sources": [
        {"content": "제15조(연차휴가) 입사 1년 후 15일...", "doc_id": "인사규정.pdf-chunk-0", "score": 0.85}
      ],
      "query": "우리 회사 휴가 정책은?"
    }

상세한 설치 방법과 Ollama 설정은 사용 가이드를 참조하십시오.

무엇을 해결하는가

도메인 특화 학습
범용 LLM은 우리 조직의 업무를 모릅니다. 도메인 문서로 직접 학습한 SLM이 전문 지식을 내재화합니다.
API 비용 제로
외부 LLM API 호출 비용이 계속 쌓이지 않습니다. 로컬 SLM 추론으로 GPU 서버 한 대면 충분합니다.
온프레미스 완전 격리
사내 문서가 외부 서버로 전송되지 않습니다. 온프레미스 환경에서 완전히 격리하여 운영합니다.
할루시네이션 차단
RAG 검색 근거와 SLM 도메인 지식을 결합하여 근거 없는 답변을 차단합니다.

문서 안내

목적에 따라 적합한 문서를 선택하십시오.

시작하기

사용 가이드
설치, 튜토리얼, 활용 시나리오, 트러블슈팅까지 slm-factory 사용의 모든 것을 다룹니다. 처음 시작하는 사용자에게 권장합니다.
가이드 보기 →
빠른 참조
자주 사용하는 명령어, 워크플로우, 설정 패턴을 한 페이지로 요약합니다. 경험 있는 사용자를 위한 치트시트입니다.
빠른 참조 보기 →

레퍼런스

CLI 레퍼런스
18개 CLI 명령어의 전체 옵션, 사용법, 실행 예시를 정리합니다. init, run, train, export, tool 하위 명령어를 포함합니다.
CLI 레퍼런스 보기 →
설정 레퍼런스
project.yaml의 23개 설정 블록과 모든 옵션을 상세히 설명합니다. 기본값, 타입, 유효 범위를 포함합니다.
설정 레퍼런스 보기 →

심화

아키텍처 가이드
설계 철학, 컴포넌트 구조, 핵심 패턴(Registry, Factory, Strategy), 데이터 흐름, 설정 시스템을 설명합니다.
아키텍처 보기 →
개발 가이드
모듈 API, 프로젝트 구조, 파서/Teacher/Validator/Exporter 확장 방법을 안내합니다. 기여자와 개발자를 위한 문서입니다.
개발 가이드 보기 →
RAG 서비스 가이드
SLM + RAG 서비스 구축 방법, 프로덕션 배포 가이드, 패턴별 장단점과 주의사항을 다룹니다.
RAG 서비스 가이드 보기 →

대상별 추천 문서

대상 추천 문서 설명
처음 시작하는 사용자 사용 가이드빠른 참조 설치부터 첫 모델 생성까지 단계별 안내
설정을 조정하는 사용자 설정 레퍼런스CLI 레퍼런스 project.yaml 옵션과 CLI 명령어 상세
RAG 시스템 구축자 RAG 서비스 가이드 SLM + RAG 서비스 구축 전략
기여자 / 개발자 아키텍처개발 가이드 내부 구조 이해 및 모듈 확장 방법

시스템 요구사항

항목 최소 요구사항 권장 사양
Python 3.11 이상 3.11 또는 3.12
GPU CPU 가능 (매우 느림) NVIDIA CUDA (VRAM 8GB+) 또는 Apple Silicon
Ollama 1.0 이상 최신 버전
디스크 5GB 이상 20GB 이상

Apple Silicon 참고 — macOS에서는 BitsAndBytes 양자화를 사용할 수 없지만, Unified Memory 구조 덕분에 시스템 RAM 전체를 GPU가 공유하므로 양자화 없이도 비교적 큰 모델을 로드할 수 있습니다.