Documentation
문서 넣고, 명령어 하나, RAG API 서빙
도메인 문서만 넣으면 SLM 학습부터 RAG API 서버까지 한 번에
빠른 시작
-
준비slm-factory를 설치하고, Ollama를 실행하고, 프로젝트를 생성합니다.
# 설치 (./setup.sh가 uv, 의존성, Ollama 모델을 자동 처리합니다) git clone https://github.com/DevDnA/slm-factory.git cd slm-factory ./setup.sh # 프로젝트 생성 + 문서 추가 slf init my-project cp /path/to/documents/*.pdf my-project/documents/
-
실행 — 명령어 하나로 전체 파이프라인 + RAG 서버
slf tune --chat --config my-project/project.yaml
13단계 파이프라인(파싱 → QA 생성 → 검증 → 학습 → Ollama 배포 → RAG 인덱싱)이 자동으로 실행되고, 완료 후 RAG API 서버가 시작됩니다. 서버는 foreground로 실행되며,
Ctrl+C로 종료할 수 있습니다. -
확인 — API로 즉시 질의
curl -X POST http://localhost:8000/v1/query \ -H "Content-Type: application/json" \ -d '{"query": "우리 회사 휴가 정책은?"}'{ "answer": "연차 휴가는 입사 1년 후 15일이 부여되며...", "sources": [ {"content": "제15조(연차휴가) 입사 1년 후 15일...", "doc_id": "인사규정.pdf-chunk-0", "score": 0.85} ], "query": "우리 회사 휴가 정책은?" }
상세한 설치 방법과 Ollama 설정은 사용 가이드를 참조하십시오.
무엇을 해결하는가
도메인 특화 학습
범용 LLM은 우리 조직의 업무를 모릅니다. 도메인 문서로 직접 학습한 SLM이 전문 지식을 내재화합니다.
API 비용 제로
외부 LLM API 호출 비용이 계속 쌓이지 않습니다. 로컬 SLM 추론으로 GPU 서버 한 대면 충분합니다.
온프레미스 완전 격리
사내 문서가 외부 서버로 전송되지 않습니다. 온프레미스 환경에서 완전히 격리하여 운영합니다.
할루시네이션 차단
RAG 검색 근거와 SLM 도메인 지식을 결합하여 근거 없는 답변을 차단합니다.
문서 안내
목적에 따라 적합한 문서를 선택하십시오.
시작하기
레퍼런스
CLI 레퍼런스
18개 CLI 명령어의 전체 옵션, 사용법, 실행 예시를 정리합니다. init, run, train, export, tool 하위 명령어를 포함합니다.
CLI 레퍼런스 보기 →
심화
대상별 추천 문서
시스템 요구사항
| 항목 | 최소 요구사항 | 권장 사양 |
|---|---|---|
| Python | 3.11 이상 | 3.11 또는 3.12 |
| GPU | CPU 가능 (매우 느림) | NVIDIA CUDA (VRAM 8GB+) 또는 Apple Silicon |
| Ollama | 1.0 이상 | 최신 버전 |
| 디스크 | 5GB 이상 | 20GB 이상 |
Apple Silicon 참고 — macOS에서는 BitsAndBytes 양자화를 사용할 수 없지만, Unified Memory 구조 덕분에 시스템 RAM 전체를 GPU가 공유하므로 양자화 없이도 비교적 큰 모델을 로드할 수 있습니다.
관련 링크
| 리소스 | URL |
|---|---|
| GitHub 저장소 | github.com/DevDnA/slm-factory |
| Ollama | ollama.com |
| HuggingFace | huggingface.co |