defuddle로 웹페이지를 변환하며 마주한 의외의 벽

defuddle로 웹페이지를 변환하며 마주한 의외의 벽

RAG 파이프라인에 쓸 웹 데이터를 defuddle로 뽑아봤더니 사이트 구조에 따라 결과가 크게 달랐다. 시맨틱 HTML이 무너진 사이트에서는 본문과 광고가 섞이고, 동적 렌더링 환경에서는 내용 자체가 날아간다.

3월 31, 2026 · 2 분 · Junho Lee