2. AI마다 인용하는 소스가 다르다

GEO 최적화 Guide — 전체 시리즈
1. GEO란 무엇인가 - SEO 너머의 AI 인용 전략
2. AI마다 인용하는 소스가 다르다 ← 현재 글
3. On-Site GEO 기술 구조 - 상품 DB에서 JSON-LD까지
4. Off-Site GEO - 공식 사이트를 안 보는 AI에게 선택받는 법
5. AEO - 코딩 에이전트가 읽는 문서는 왜 다른가

“AI에서 잘 나온다"는 말을 곧이곧대로 믿으면 안 된다

GEO를 적용하겠다고 마음먹은 뒤, 가장 먼저 하는 게 ChatGPT에 자사 브랜드를 물어보는 거다. “우리 회사 나온다, 잘 되네.” 여기서 끝나는 경우가 많다.

근데 같은 질문을 Perplexity에 던지면 다른 답이 나온다. Google AI Overview에서는 또 다르다. 어떤 플랫폼에서는 공식 사이트가 인용되고, 어떤 플랫폼에서는 블로그 리뷰가 출처로 잡힌다. 심지어 같은 ChatGPT 안에서도 웹서치 모드를 켰느냐 껐느냐에 따라 인용 소스가 달라진다.

AI 검색을 하나의 채널처럼 취급하면 안 된다. 플랫폼마다 인용 로직이 다르고, 선호하는 소스 유형이 다르다.

플랫폼별 인용 소스, 데이터로 보면 이렇다

세 곳의 분석 데이터를 합쳐보면 플랫폼 간 차이가 뚜렷하게 드러난다. Yext, Qwairy, GrackerAI 각각 규모는 달라도 방향은 같다.

플랫폼	선호 소스	특징
Gemini	공식 사이트 (52%)	Google 검색 인덱스 기반. 구조화 데이터가 있는 자사 도메인을 우선
ChatGPT	디렉토리/리스팅 (49%)	Yelp, TripAdvisor 같은 서드파티 집계 사이트 의존도 높음
Perplexity	Reddit/커뮤니티 (31%)	실사용자 토론 스레드를 적극 인용. 업종별 전문 디렉토리도 활용
Google AIO	YouTube (23%)	6개월간 인용 점유율 34% 성장. 영상 콘텐츠 비중이 독보적

Gemini는 구글 검색 로직을 물려받아서 공식 사이트의 구조화된 콘텐츠를 신뢰한다. ChatGPT는 외부 검색 레이어에 의존하다 보니 디렉토리와 리스팅 사이트의 영향을 많이 받는다. Perplexity는 사람들이 실제로 의견을 나눈 커뮤니티 스레드에서 답을 끌어온다.

재미있는 건 플랫폼 간 인용 소스의 겹침이 거의 없다는 점이다. ChatGPT와 Perplexity가 공통으로 인용하는 도메인은 전체의 11%에 불과하다. 한쪽에서 잘 보인다고 다른 쪽에서도 보이는 게 아니다.

소스와 인용은 다른 개념이다

AI 답변을 자세히 보면 두 가지 형태의 출처 표기가 있다.

하나는 답변 하단에 참고 링크로 깔리는 소스(Source) 로, URL이 신뢰할 만하다고 판단되면 여기에 포함된다. 다른 하나는 답변 본문 중간에 하이퍼링크로 걸리는 인용(Citation) 인데, 본문의 특정 문장을 뒷받침하는 근거로 쓰인다.

인용까지 가려면 두 단계를 통과해야 한다. URL 수준의 도메인 신뢰도, 그리고 해당 페이지 본문의 정보 신뢰도. 도메인은 믿을 만한데 본문 구조가 파싱하기 어렵다면 소스에는 뜨지만 인용에는 안 걸린다. 반대로 본문은 잘 구조화됐는데 도메인 자체가 약하면 역시 소스 목록에만 남는다.

이전 글 에서 다룬 GEO 3대 원칙과 연결하면 이렇다:

Identity → 도메인 신뢰도의 기반. GTIN, Organization 스키마가 여기에 기여
Context → 본문의 정보 품질. 카테고리, 용도, Variant 관계가 구조화되어야 파싱 가능
Citability → 소스에서 인용으로 넘어가는 관문. JSON-LD, FAQ Schema가 이 단계를 결정

웹서치 모드에 따라 결과가 달라진다

ChatGPT에서 같은 질문을 두 번 해보면 답이 달라지는 경우가 있다. 웹서치가 켜졌을 때와 꺼졌을 때의 차이다.

웹서치가 꺼진 상태에서는 사전 학습 데이터를 기반으로 답한다. 학습 시점에 존재했던 콘텐츠가 인용 대상이 된다. 웹서치가 켜지면 실시간 크롤링 기반으로 전환된다. 이때는 현재 시점의 구조화 상태, robots.txt 허용 여부, 콘텐츠 최신성이 인용을 좌우한다.

GEO 모니터링을 할 때 이 구분을 안 하면 오판하기 쉽다. “우리 브랜드 ChatGPT에서 잘 나오는데요?” — 웹서치 모드를 끄고 테스트한 거라면 사전 학습 데이터에서 나온 거다. 실시간 크롤링 기반으로 테스트해야 현재 GEO 상태를 정확히 볼 수 있다.

Google AIO에서 YouTube가 급부상하고 있다

Google AI Overview의 인용 패턴에서 가장 눈에 띄는 변화는 YouTube다.

YouTube가 AI Overview 인용 1위 도메인이다 (Ahrefs Brand Radar). 반년 사이에 점유율이 34% 늘었다. 소셜 플랫폼 중에서도 Reddit 다음으로 YouTube 인용이 많다 (OtterlyAI).

조회수가 많은 영상이 인용되는 게 아니라는 점도 재밌다. AI에 인용된 YouTube 영상의 절반 가까이가 조회수 1,000도 안 됐다. 좋아요 수십 개짜리도 수두룩하다. AI는 인기도가 아니라 정보 구조를 본다. 타임스탬프, 챕터 구분, 명확한 제목 - 이런 게 인용 여부를 가른다.

반면 ChatGPT와 Perplexity에서는 YouTube 인용을 거의 찾아보기 어렵다. 같은 영상 콘텐츠도 플랫폼에 따라 가치가 완전히 달라진다.

robots.txt를 보면 경쟁사의 AI 전략이 보인다

경쟁사가 GEO를 어떻게 접근하고 있는지 가장 빠르게 파악하는 방법이 있다. https://경쟁사도메인/robots.txt를 브라우저에 입력하면 된다.

커머스 업종은 상품 카탈로그 보호를 위해 AI 크롤러를 차단하는 경우가 많다. 가격, 재고, 상품 상세 정보가 경쟁사 AI에 노출되는 걸 막으려는 거다. B2B SaaS는 반대로 최대한 열어둔다. AI 검색에서 노출되는 게 리드 확보에 유리하니까.

대규모 그룹사의 경우 계열사별로 robots.txt 정책이 제각각인 경우가 많다. 어떤 계열사는 GPTBot을 차단하고, 어떤 계열사는 전체 허용이다. 그룹 차원에서 일관된 정책 없이 각 사가 알아서 설정한 결과다.

실제로 대형 유통 그룹의 계열사들을 전수 조사해보니, FAQPage Schema를 적용한 회사는 0개, AI 인용이 양호한 회사는 호텔 계열 1개뿐이었다. robots.txt를 열어놨어도 구조화 데이터가 없으면 AI 입장에서는 읽을 게 없다.

# 차단 상태 (GEO 불가)
User-agent: GPTBot
Disallow: /

# 허용 상태 (GEO 가능)
User-agent: GPTBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: anthropic-ai
Allow: /

새 글 없이 구조만 바꿔도 인용률이 달라진다

GEO를 시작할 때 가장 흔한 오해가 “콘텐츠를 새로 만들어야 한다"는 거다. 물론 새 콘텐츠가 도움이 되지만, 기존 콘텐츠의 구조를 바꾸는 것만으로도 AI 인용 가능성이 달라진다.

구조화 데이터를 적용한 페이지는 AI Overview에 뜰 확률이 36% 높고 (GrackerAI), 완전한 Schema를 적용하면 ChatGPT 노출 확률이 80% 까지 올라간다 (Search Engine Land). 기본 Schema만 있으면 20%.

기존 블로그 글에 할 수 있는 것들:

글 상단에 핵심 요약(TLDR) 40~60단어 추가
저자 바이오와 전문성 표기
FAQ 섹션을 추가하고 FAQPage Schema로 래핑
<meta name="description">을 100자 이상 구체적으로 수정

콘텐츠 최신성도 중요하다. Perplexity에서 높은 인용을 받은 페이지 4분의 3 이상이 한 달 이내에 업데이트된 것이었다. 석 달 넘게 손 안 댄 페이지는 밀린다.

Reddit이 한국어 쿼리에 뜨는 건 우연이 아니다

한국어로 질문했는데 Reddit 스레드가 인용되는 경우가 있다. 이상해 보이지만 구조적인 이유가 있다.

Reddit은 AI 번역과 hreflang 태그를 활용해서 22개 언어 버전을 운영하고 있다. 한국어 쿼리에 매칭될 수 있는 구조가 이미 갖춰져 있는 거다. Perplexity의 전체 인용 중 Reddit이 6.6%를 차지하고, Google AI Overview에서도 2.2%로 상위권이다. 특히 “best ○○”, “○○ 추천” 같은 주관적 쿼리에서 Reddit의 점유율이 높아진다.

이건 Off-Site GEO 관점에서 시사하는 바가 크다. 자사 사이트의 구조화만으로는 커버하지 못하는 영역이 있다. AI가 “사람들의 실제 의견"을 우선하는 쿼리 유형에서는 커뮤니티와 리뷰 플랫폼의 영향력이 크다.

하나의 전략으로 모든 AI를 커버할 수 없다

플랫폼마다 뭘 믿는지가 다르다:

신뢰 기반	설명	유리한 플랫폼
자사 사이트 구조화	Schema.org, JSON-LD, FAQ	Gemini, Google AIO
서드파티 리스팅 정합성	디렉토리, 리뷰 사이트 정보 일치	ChatGPT
커뮤니티 평판	Reddit, 포럼, UGC	Perplexity
영상 콘텐츠 구조화	YouTube 챕터, 타임스탬프	Google AIO

On-Site GEO가 기본이다. robots.txt를 열고, JSON-LD를 넣고, FAQ를 구조화하면 Gemini와 Google AIO에서 특히 효과가 크다.

ChatGPT에서 노출되려면 거기에 더해서 서드파티 리스팅의 정합성까지 챙겨야 한다. Perplexity까지 노리면 커뮤니티에서의 자연스러운 언급이 필요하다.

이 시리즈는 On-Site GEO에 집중한다. 다만 어떤 플랫폼을 먼저 노리냐에 따라 Off-Site까지 손 대야 할 수도 있다.

“AI에서 잘 나온다"는 말을 곧이곧대로 믿으면 안 된다#

플랫폼별 인용 소스, 데이터로 보면 이렇다#

소스와 인용은 다른 개념이다#

웹서치 모드에 따라 결과가 달라진다#

Google AIO에서 YouTube가 급부상하고 있다#

robots.txt를 보면 경쟁사의 AI 전략이 보인다#

새 글 없이 구조만 바꿔도 인용률이 달라진다#

Reddit이 한국어 쿼리에 뜨는 건 우연이 아니다#

하나의 전략으로 모든 AI를 커버할 수 없다#