RAG | Junho Lee

5. 메타데이터 유지보수를 자동화하는 방법: Karpathy의 LLM Wiki 구조

RAG는 매번 처음부터 답을 찾는다. Karpathy는 LLM이 위키를 직접 유지보수하게 해서 지식이 쌓이는 구조를 제안했다. DataNexus의 온톨로지 카탈로그가 방치되지 않으려면 같은 원리가 필요하다.

노션, 깃허브, S3에 파편화된 사내 문서를 로컬 LLM으로 묶어 질의응답하는 오픈소스 플랫폼. 외부 API 없이 온프레미스로 돌린다.

법령 XML을 직접 파싱하면 표 구조가 깨지고 전처리에 반나절이 빠진다. 법망은 JSON으로 정제된 데이터를 바로 주는 API로, 그 과정을 미리 해결해놓은 서비스다.

노션, 깃허브, S3 등에 흩어진 팀 문서를 Ollama로 로컬 구동하는 RAG 플랫폼. 보안 환경에서도 외부 API 없이 자연어 검색이 된다.

RAG 파이프라인에 쓸 웹 데이터를 defuddle로 뽑아봤더니 사이트 구조에 따라 결과가 크게 달랐다. 시맨틱 HTML이 무너진 사이트에서는 본문과 광고가 섞이고, 동적 렌더링 환경에서는 내용 자체가 날아간다.

에이전트에게 Planning을 통째로 맡기면 프로덕션에서 루프를 돌다 멈추는 문제가 생긴다. OpenAI 가이드는 그 문제를 명시적 워크플로우 제어로 푼다.

PDF나 Word 파일을 LLM에 넣기 전에 표 구조와 제목 계층을 살려서 Markdown으로 바꿔주는 도구인데, 전처리 공수가 줄어드는 게 생각보다 크다.