Junho Lee

DataNexus 구축기

more →

온톨로지 기반 데이터 에이전트 플랫폼, DataNexus를 만드는 과정

9. 공개 벤치마크에서 56%: 9번 실험하고 접은 것들

자체 30문항에서 정확도 80%를 찍었지만, BIRD 공개 벤치마크 50문항에서는 56%였다. 9번의 실험으로 ‘후보 여러 개 만들어서 고르기’ 가설을 세 방향에서 모두 접었다. 남은 건 스키마 이해와 방법론.

8. NL2SQL 정확도 66%에서 80%까지, 4번의 측정-개선 루프

라우팅 설계를 붙인 뒤 30문항 벤치마크로 NL2SQL EX(Execution Accuracy)를 66.67%에서 80%까지 올렸다. 4사이클 동안 뭘 고쳤고 어디서 꺾였는지 정리한다.

7. 질문이 들어오면, 라우팅은 누가 결정하나

용어 정의는 끝났다. 근데 질문이 들어왔을 때 그래프를 탈지 SQL을 짤지 벡터 검색을 돌릴지를 누가 정하나. 라우터를 설계하면서 부딪힌 것들.

6. 에이전트 인프라를 직접 안 만들어도 될 때, 하네스는 점점 무효화된다. 그러면 온톨로지는?

Conway 유출이 나온 지 얼마 안 돼서 Anthropic이 Claude Managed Agents를 정식 발표했다. 에이전트 인프라가 플랫폼에 흡수되는 흐름 속에서, DataNexus의 온톨로지가 왜 안전한지를 정리했다.

5. 메타데이터 유지보수를 자동화하는 방법: Karpathy의 LLM Wiki 구조

RAG는 매번 처음부터 답을 찾는다. Karpathy는 LLM이 위키를 직접 유지보수하게 해서 지식이 쌓이는 구조를 제안했다. DataNexus의 온톨로지 카탈로그가 방치되지 않으려면 같은 원리가 필요하다.

DW 모델링

데이터 웨어하우스 모델링 설계 가이드

4. 수퍼-서브 타입 - 고객이 개인이면서 법인일 수 있는가

수퍼-서브 타입은 논리 모델에서 비즈니스 분류를 명확하게 만든다. 물리 모델로 넘어갈 때 세 가지 선택지가 생기고, DW에서는 그 선택이 차원 설계 전체를 바꾼다.

3. ERD 표기법 - 같은 그림, 다른 해석

같은 까마귀발인데 왜 해석이 다를까. 점선 하나가 툴마다 다른 뜻을 가진다. 프로젝트에서 모델을 공통 언어로 쓰려면 쓰는 도구의 표기법부터 맞춰야 한다.

2. OLTP vs DW 모델 - 목적이 다르면 설계도 다르다

ERD가 같아 보여도 설계 철학은 완전히 다르다. OLTP는 트랜잭션 정합성, DW는 분석 접근 경로. 그 차이가 Unknown 레코드와 시점 데이터 같은 낯선 것들을 만든다.

1. 클라우드 DW에서 Kimball은 여전히 유효한가

Synapse, BigQuery, Redshift로 오면서 DW 모델링 관점이 어떻게 달라졌는지. Kimball, Data Vault, One Big Table - 실무에서의 판단 기준.

ETL 설계

ETL/ELT 파이프라인 설계 가이드

4. SCD - 고객 주소가 바뀌면 과거 주문은 어디로 배송된 걸로 남는가

차원 데이터가 바뀌면 과거를 덮어쓸 것인가, 이력을 남길 것인가. SCD Type 1, 2, 3의 차이를 SQL로 직접 구현하고, dbt snapshot으로 프로덕션 패턴을 만든다.

3. Silver 레이어 - Bronze를 분석 가능한 상태로 올린다

Bronze에 쌓아둔 원본 데이터를 정제하고 표준화한다. 타입을 맞추고, 컬럼명을 통일하고, 중복을 제거한다. dbt로 이 과정을 SQL 모델로 정의한다.

2. Bronze 레이어 - 원본을 있는 그대로 쌓는다

Bronze에 데이터를 넣는 방법은 두 가지다. 전체를 덮어쓰거나, 바뀐 것만 가져오거나. 어떤 방식을 고르느냐에 따라 파이프라인의 복잡도가 완전히 달라진다.

1. 메달리온 아키텍처 - 데이터를 세 겹으로 쌓는 이유

Bronze, Silver, Gold. 데이터를 레이어별로 나눠서 적재하면 뭐가 달라지는가. DuckDB와 dbt로 직접 구성해 본다.

GEO 최적화 Guide

Generative Engine Optimization — AI가 인용하는 콘텐츠를 만드는 기술 전략

5. AEO - 코딩 에이전트가 읽는 문서는 왜 다른가

GEO가 소비자 AI를 위한 최적화였다면 AEO는 코딩 에이전트를 위한 최적화다. 문서 길이 제약, llms.txt, skill.md, AGENTS.md까지 필요한 파일들을 정리한다.

4. Off-Site GEO - 공식 사이트를 안 보는 AI에게 선택받는 법

On-Site GEO를 완벽하게 적용해도 AI 인용의 절반은 외부 채널에서 결정된다. 플랫폼별 Off-Site 전략과 robots.txt 진단법을 다룬다.

3. On-Site GEO 기술 구조 - 상품 DB에서 JSON-LD까지

상품 마스터 DB의 데이터가 어떤 파이프라인을 거쳐 HTML 의 JSON-LD가 되는지. 3단계 파이프라인 구조와 SSR 기반 자동 배포 아키텍처를 다룬다.

2. AI마다 인용하는 소스가 다르다

ChatGPT는 Wikipedia를, Perplexity는 Reddit을, Gemini는 공식 사이트를 선호한다. 하나의 전략으로 모든 AI 플랫폼에 대응하는 건 불가능하다.

1. GEO란 무엇인가 - SEO 너머의 AI 인용 전략

구글 상위 10위 페이지 중 AI가 인용하는 비율은 9%에 불과하다. SEO 순위가 AI 인용을 보장하지 않는 시대, GEO의 3대 원칙과 학술 근거를 정리한다.

큐레이션

more →

데이터 엔지니어링, AI, 기술 트렌드 관련 큐레이션 모음

Claude Code 성능을 높이는 설정과 설계의 본질

순정 상태 유지, settings.json 3줄로 풀 추론 강제, 시스템 아키텍처 설계에 집중하는 것이 Claude Code 성능을 실질적으로 높이는 방법이다.

LLM이 바로 알아듣는 32가지 프롬프트 숏컷 명령어

별도 정의 없이 Claude, ChatGPT, Gemini에 던지면 즉시 작동하는 슬래시 명령어 32가지를 분류하고, 실무에서 조합해 쓰는 방법을 정리했다.

국내 대형 증권사 Open API 활용을 위한 공식 저장소 분석

LLM 에이전트와 파이썬 환경에 최적화된 증권사 API 공식 샘플 코드의 구조를 분석한다.

유료 앱의 대안으로 부상한 네이티브 macOS 도구 macshot

구독료 부담을 덜어주면서도 강력한 기능을 제공하는 네이티브 기반 오픈 소스 macOS용 도구 macshot을 살펴본다.

팀의 파편화된 지식을 하나로 묶는 로컬 RAG, OpenDocuments

노션, 깃허브, S3에 파편화된 사내 문서를 로컬 LLM으로 묶어 질의응답하는 오픈소스 플랫폼. 외부 API 없이 온프레미스로 돌린다.