9. 공개 벤치마크에서 56%: 9번 실험하고 접은 것들

자체 30문항에서 정확도 80%를 찍었지만, BIRD 공개 벤치마크 50문항에서는 56%였다. 9번의 실험으로 ‘후보 여러 개 만들어서 고르기’ 가설을 세 방향에서 모두 접었다. 남은 건 스키마 이해와 방법론.

4월 19, 2026 · 4 분 · Junho Lee