NL2SQL

9. 공개 벤치마크에서 56%: 9번 실험하고 접은 것들

자체 30문항에서 정확도 80%를 찍었지만, BIRD 공개 벤치마크 50문항에서는 56%였다. 9번의 실험으로 ‘후보 여러 개 만들어서 고르기’ 가설을 세 방향에서 모두 접었다. 남은 건 스키마 이해와 방법론.

8. NL2SQL 정확도 66%에서 80%까지, 4번의 측정-개선 루프

라우팅 설계를 붙인 뒤 30문항 벤치마크로 NL2SQL EX(Execution Accuracy)를 66.67%에서 80%까지 올렸다. 4사이클 동안 뭘 고쳤고 어디서 꺾였는지 정리한다.

7. 질문이 들어오면, 라우팅은 누가 결정하나

용어 정의는 끝났다. 근데 질문이 들어왔을 때 그래프를 탈지 SQL을 짤지 벡터 검색을 돌릴지를 누가 정하나. 라우터를 설계하면서 부딪힌 것들.

6. 에이전트 인프라를 직접 안 만들어도 될 때, 하네스는 점점 무효화된다. 그러면 온톨로지는?

Conway 유출이 나온 지 얼마 안 돼서 Anthropic이 Claude Managed Agents를 정식 발표했다. 에이전트 인프라가 플랫폼에 흡수되는 흐름 속에서, DataNexus의 온톨로지가 왜 안전한지를 정리했다.

1. 왜 DataNexus를 만드는가

“VIP 기준이 뭐죠?” 유통사 BI Agent 프로젝트에서 있었던 일이다. 현업 담당자가 테스트 중에 Agent에게 물었다. “지난달 VIP 고객 매출 알려줘.” 시스템이 숫자를 뱉어냈는데, 담당자 표정이 좋지 않았다. “이거 뭔가 이상한데요. VIP 기준이 우리 팀이랑 다른 것 같아요.” 마케팅의 VIP와 CRM의 VIP가 달랐다. 매출도 마찬가지. 순매출이냐 총매출이냐에 따라 수억 단위로 차이가 난다. 처음 겪는 문제가 아니었다. DW를 클라우드로 옮기는 프로젝트에서도 봤고, 차세대 정보계를 여러 벤더와 1년 넘게 만들 때도 똑같았다. 벤더마다 “매출”, “원가"의 기준이 달라서 데이터 정합성 잡느라 몇 주씩 지연됐다. 용어 하나 안 맞으면 전체 일정이 밀린다. DW/BI 프로젝트를 하면서 이 문제가 안 나온 적이 없다. ...