미디어 회사 출신 개발자가 AI시대의 SEO를 대비하는 법

최근 생성형 AI의 등장으로 SEO가 큰 위기를 맞고 있습니다. 기존에 SEO가 강력했던 이유는 검색 서비스가 미디어 채널보다 사용자 경험의 앞 퍼널에 있었기 때문이었습니다. 사용자와 미디어 채널을 키워드 기반 검색으로 연결해 주면서 트래픽에 영향을 줄 수 있었는데요. 생성형 AI 서비스가 질문에 대한 답을 주는 방식의 정보 탐색 방법을 제시하면서 검색 서비스보다 사용자에게 더 가까운 자리를 노리고 있습니다.
변화는 당장 체감이 되지 않지만, 생각보다 큰 파장을 일으킬 것 입니다. 기존 검색 서비스에 의존하던 미디어 채널들은 변화가 커질 수록 영향을 많이 받을 것이고, 이미 받은 곳들도 조금씩 등장하고 있습니다. 그리고 앞으로 사례는 계속 늘어날 것으로 보입니다.


chatGPT 이후 홈페이지 유입 및 게시물 수가 급감한 Stack Overflow (https://observablehq.com/@ayhanfuat/the-fall-of-stack-overflow 참고)
미디어는 VC 회사에게도 매우 중요한 요소 이기에, 저희에게 이 변화는 남의 일이 아닙니다. 지금은 VC 회사를 만들어가고 있는 개발자이지만, 의외로 저는미디어와 친합니다(?) 창업을 하기전, EO라는 미디어 회사에 첫번째 개발자로 입사하여, 현재는 월 10만명 이상의 사용자가 이용하는 eo planet를 직접 구현 하였습니다. 그래서 그 성장 과정을 모두 겪었는데요. 하루 10명 남짓하게 들어오던 서비스에서 하루 4000 - 5000명이상 들어오는 서비스가 되는데에 많은 기여를 한 것은 SEO 였습니다. 그러기에, SEO가 미디어 채널을 운영하는데 얼마나 중요한지 알고 있고, 이 변화가 큰 위기처럼 느껴집니다.

위기와 기회는 항상 같이온다는 말 처럼, 생성형 AI 서비스에 빨리 대응할 수 있다면 유리한 고지를 먼저 점령할 수 있습니다. 손가락 빨면서 보고만 있을 순 없습니다. 우리는 그럼 어떻게 해야할까요?
비록, 형태가 바뀌긴 했지만, 사용자의 정보 탐색을 돕는다는 사실 자체는 변하지 않았습니다. 그렇기 때문에, 저는 기존의 검색 서비스는 사용자에게 좋은 정보제공을 하기 위해 과거 어떤 작업을 했는지와 새로운 AI 기반 정보제공 서비스는 어디에 집중을 하고 있는지에 대해서 알아보면 그 힌트를 얻을 수 있다고 생각합니다.
검색 맛집의 비법소스
검색 서비스는 내부에 검색엔진이라는 핵심 기술이 있습니다. 검색 엔진은 사용자가 입력한 키워드와 연관된 페이지 리스트를 구성하는 일을 합니다. 이 페이지 리스트는 사용자가 원하는 정보를 찾을 확률이 높은 페이지부터 순서대로 나열되어있지요. 물론 요새는 광고가 제일 상단에 있지만요.
여기서 이 리스트에 페이지를 얼마나 잘 줄세우느냐가 검색 엔진에게 매우 중요한 일입니다. 많은 정보를 잘 제공해줘야 사용자들이 더 많이 찾기 때문이죠. 그래서 이 검색엔진 알고리즘은 음식의 비법소스 같은 역할을 합니다. 집집마다 다르고, 대략은 알겠지만 잘 알 수 없지요. 하지만 검색 맛집 중 최고 맛집 구글은 알고리즘이 공개 되어있습니다. 구글의 창립자인 래리 페이지와 세르게이 브린이 작성한 아래 논문이 그 내용입니다.

PageRank라는 이 알고리즘은 간단히 이야기하자면, 얼마나 신뢰도 높은 페이지가 얼마만큼 링크를 공유했느냐에 따라 페이지에 점수를 주고, 사용자가 찾는 키워드와 연관된 페이지를 나열한 뒤, 이 점수에 따라 나열하는 방식입니다. 아래 이미지를 보시면 더 이해하시기 쉽습니다.

페이지 랭크를 올리는 방법은 두가지 입니다.
1. 랭크가 높은 페이지로부터 인용받기
2. 다른 페이지로부터 인용을 많이받기.
1번의 예시는 위 그림에서 A와 C입니다. C는 한개의 인용만 받았지만, 랭크가 높은 페이지인 B가 인용했기 때문에, 단숨에 높은 랭크를 받습니다. A도 1회의 인용을 받았지만, 상대적으로 랭크가 낮은 D의 인용을 받았기에 랭크가 낮습니다. 2번의 예시는 B와 E입니다. 다수의 인용을 받아서, 랭크가 올라갑니다.
이 알고리즘은 인용을 통해 "신뢰도 높은 정보 소스"를 식별합니다. 구글은 이 알고리즘을 앞세워 "사용자가 신뢰도 높은 페이지의 정보를 찾고 싶을 것이다"라는 가정에 배팅하였고, 멋지게 성공하여 지금까지 검색시장 점유율 90% 에 육박하는엄청난 기업을 만들어 냅니다.
검색 서비스에서 살아남는 방법
구글에서 사용자에게 노출이 많이 되는 페이지를 구성하려면, 어떻게 해야할까요? 위 알고리즘의 방법대로, 신뢰도 높은 페이지에 노출하고, 다수의 페이지에 노출을 받기만 하면 될까요? 이 방법이 빠르게 성장하기 제일 좋은 방법이지만, 하고 싶다고 할 수 있는 방법은 아닙니다. 인용을 받지 않고도 해볼 수 있는 방법이 있습니다.
이 방법은 우리가 잘 알고 있는 SEO입니다. SEO는 말 그대로 검색엔진 최적화 작업이기 때문에 영역이 매우 넓습니다. 위에서 이야기한 인용 받는 방법도 SEO 중 하나입니다. 검색엔진의 선택을 받는 일은 크게 세 파트로 나눠 볼 수 있습니다.
- 기술적 SEO (검색엔진 친화도) - 크롤링, 색인 생성, 사이트 구조, 속도, 모바일 최적화 등 검색엔진이 사이트를 효과적으로 이해할 수 있게 하는 기술적 요소
- 콘텐츠 SEO (사용자 경험) - 키워드 연구, 고품질 콘텐츠 제작, 사용자 의도 충족, 가독성, 멀티미디어 최적화 등
- 외부 SEO (오프페이지 요소) - 백링크 구축, 소셜 신호, 브랜드 인지도, 외부 평판 관리 등
보통 SEO한다라고 하면, 진행하는 작업은 1번, 기술적 SEO 입니다. 요새는 서비스들이 좋아져서, 워드프레스, 고스트와 같은 블로그 서비스에서도 웬만하면 개발자 없이도 가능하지만, 이 행위를 하는 이유에 대해서 알면 더 도움이 많이 됩니다. 검색 엔진이 키워드 검색 결과 리스트를 구성하기 위해서는 다양한 페이지 정보를 가지고 있어야 하죠.
이를 위해 검색엔진 서비스들은 "수집 봇"을 만들어서 돌립니다. 수집 봇의 역할은 링크를 돌아다니며 페이지 정보를 수집합니다. 하지만 봇이 정보를 수집하러 들어가더라도, 페이지의 구조가 모두 뒤죽박죽이기 때문에 정보를 모두 추출해내는 것은 쉽지 않습니다. 그러기에 각 검색 엔진들은 자신들의 기준을 제공하고, 이에 맞추길 권장합니다. 이 기준에 맞춰야 콘텐츠 랭크 심사에서 온전한 내용으로 심사를 받을 수 있는 것이죠 . 구글 같은 경우도, 자신들의 기준을 제공하고 있습니다.

내용이 정말 많지만, 눈여겨 볼 만한 부분이 있습니다. 기술적으로 요구하는 방향이 전반적으로 자신들이 고객에게 콘텐츠를 제공하는 방식에 맞춰져 있습니다. 예를 들면, 아래와 같이 검색 결과를 제공하는 방식을 예로 들고, 여기에 맞춘 규격을 함께 제공합니다.

이 부분을 통해, SEO 문서를 제공하지 않는 검색 엔진에 기술적 SEO를 하고자 하면, 그 검색 서비스가 어떤 방법으로 사용자에게 정보를 제공하는지 보면 알 수 있다는 가설을 세워볼 수 있습니다.
기술적 작업을 통해서 수집된 정보는, 구글 검색 엔진 내부의 기준에 따라 전처리, 후처리 작업을 받습니다. 이때, 콘텐츠 작업과 외부 페이지 링크 작업이 PageRank를 결정합니다. 그래서 두 작업 역시 매우 중요합니다. SEO는 결국 검색 서비스가 사용자 경험을 증진 시키 위해 만들어 놓은 기준에 맞추는 행위입니다. 우리가 SEO를 잘 하려면, 결국 구글이 사용자에게 어떤 경험을 주려고 하는지 이해하는게 매우 중요하다는 점을 알 수 있습니다.
신흥 맛집의 레서피 - 퍼플렉시티 내부 구조
기존 정보탐색의 대표주자가 구글이었다면, 미래 주인공 후보중 하나는 퍼플렉시티이지 않을까 싶습니다. 퍼플렉시티는 다른 생성형 AI와 다르게 정보 탐색에 최적화 되어있습니다. 보통 생성형 AI 서비스에서 지식기반 답변 생성 엔진을 답변엔진(Answer engine)이라고만 부르는데, 퍼플렉시티는 내부 엔진을 지식 발견 엔진(knowledge discovery engine)이라 칭하고, 사용자 질의에 답변을 제공하는 것 뿐만이 아니라, 답변을 만들어낸 소스, 추가 정보탐색을 할 수 있는 질문도 함께 제공하여, 사용자가 원하는 정보를 찾을 수 있도록 전격적으로 도와줍니다.
퍼플렉티시의 구조에 대해서 이야기 하기전에, 기본적인 RAG(Retrieval-Augmented Generation)의 형태에 대해 먼저 더 짚고 넘어가보자 합니다. 가장 기본적인 구조는 아래와 같습니다.

사용자가 질의를 하면 LLM 임베딩이 백터 데이터베이스에 맞게 질의을 변경하여 던집니다. 질의를 받은 벡터 데이터베이스는 유사도 측정을 합니다. 질의와 유사한 형태의 문장을 가진 소스를 찾아, 유사도가 높은 순위대로 리스트를 만듭니다. 이때 이 리스트는 유사도가 조금이라도 있는 모든 소스를 가져오지 않고, 개발자가 최초에 설정한 만큼의 양만 가져옵니다. 왜냐하면, 소스가 많다고 좋은 답변을 만들어내는 것이 아니기 때문에, 얼마만큼의 소스를 가져올지 역시 비법이 필요합니다. 그 다음, 소스 리스트와 사용자가 최초에 한 질의를 함께 프롬프트에 채워 넣습니다. 마지막으로 이 프롬프트를 LLM에게 던지면, LLM이 소스를 기반으로한 질문의 답변을 만들어 냅니다.
RAG 이야기를 먼저 한 이유는 퍼플렉시티가 RAG 기반으로 설계가 되어 있기 때문입니다. 물론 위 구조처럼 단순하진 않습니다. 아래 팟캐스트에서 퍼플렉시티의 대표 Aravind Srinivas의 이야기를 통해 더 자세한 정보를 확인할 수 있습니다.
퍼플렉시티는 LLM과 검색엔진을 결합하여 작동하는 답변엔진(내부에서 지식발견엔진이라고 부르는)을 제공합니다. 위 RAG 구조도를 바탕으로 설명하자면, LLM 임베딩과 벡터 데이터베이스가 하던 역할을, 더 고도화된 검색엔진이 맡는 것과 유사합니다.
답변엔진 내에서 검색엔진의 역할은 꽤 중요한 요소로 보입니다. 퍼플랙시티는 "retrieve 해온 정보 이외의 것들은 아무것도 말하지 않는다"는 원칙을 내부적으로 가지고 있다고 하는데요. 즉, "retrieve 하여 가져온 정보 소스가 답변의 퀄리티를 움직이는데 가장 영향을 많이 미친다" 라는 가설을 가지고 있는 것으로 보입니다. 좋은 정보를 판단하는데 많은 신경을 쓰고 있을것이라 예상되는데, 검색 엔진의 구성에 대해서도 일부 언급을 합니다.
퍼플렉시티의 검색 엔진은 벡터 임베딩과 기존 검색엔진의 검색 방법을 함께 사용하고 있다고 합니다. 벡터 임베딩은 단순 단어의 유사도를 벡터로 측정하기 때문에 깊이있는 문맥에 대한 이해를 하는 것을 하는 것이 어렵습니다. 같은 단어라도 다른 의미로 해석이 가능한데, 그런 부분에 대한 캡쳐를 하지 못한다는 이야기죠. 이뿐만 아니라 시계열에 대한 고려 역시 메타데이터를 통해서 밖에 못하다보니, 순수 벡터 임베딩 만으로는 사용자가 원하는 답변을 만드는데에 한계가 있습니다. 그러다보니 기존 검색엔진의 방법들을 함께 사용하는 것으로 보입니다.
사용하고 있는 방법에 대해서는 대표적으로 BM25 알고리즘을 언급하였는데요. 이 알고리즘은 여러 라이브러리에서 쉽게 사용할 수 있음에도 성능은 매우 강력합니다. OpenAI에서 임베딩을 출시했을 때, 일부 검색 벤치마크에서 BM25이 OpenAI 임베딩보다 성능이 좋아서 논란이 있었을 정도 입니다.
그 외에도 검색 결과 정확도를 높이기 위한 소스 선별 방법으로 도메인 권위 평가, 최신성 등등의 방법을 하이브리드로 사용하여 검색 정확도를 높인다고 이야기합니다. 여기서 도메인 권위 평가를 할 때, 클릭 기반 랭킹 모델을 사용하는 Google과 달리, 인용을 기반으로 새로운 랭킹 모델을 구축하고자 한다는 언급을 하였습니다.

그리고 AEO(Answer Engine Optimization) 관련 내용도 있었습니다. Aravind는 SEO와 유사한 AEO를 언급 하였는데요. AEO의 예시로, 사용자들이 웹페이지 내용에 프롬프트를 넣어, AI가 답변을 생성할 때 직접 영향을 미치게 하는 사례를 들었습니다. 퍼플렉시티의 구조를 보면 답변 엔진 내에 검색 엔진이 있기 때문에, AEO는 SEO의 개념을 포함한다고 할 수 있습니다. 그리고 예시를 통해 답변에 까지 직접적인 영향을 미치는 행위 까지 포함한다고 보입니다. 정리하자면 AEO는 소스로 채택되는 방법 뿐만 아니라, 사용자에게 답변을 할 때 원하는 메시지를 전달하는 방법까지 포함한 개념으로 해석할 수 있습니다.
지금부터 미리 줄을 서있어야 하는가
아마 차세대 정보 탐색 서비스는 대부분 구글의 아성으로부터 벗어나려고 끊임없이 노력할 것입니다. 구글 이상의 무언가를 할수 있다는 것을 찾지 못하면 생존하지 못하니까요. 퍼플랙시티가 도메인 권위 평가에서 구글의 모델을 벗어나려하는 이유도 이와 같지 않을까 싶습니다. 다들 각자의 방법을 찾아서 계속 변화할 것입니다.
그러기에 지금 AEO에 대해서 이야기 하는 것은 약간 이른감이 있습니다. 스스로도 최적화가 되지 않았기에, 새로운 서비스를 미디어로 이용하고자 하는 사람들이 대응하기 힘든 상태인 것이죠. 대신 앞서 살펴본 사례를 통해, 앞으로 어디를 집중 관찰해야 하는지에 대해서는 힌트를 몇가지 찾을 수 있었습니다.
- 사용자에게 신뢰도 높은 정보를 제공하는 것은 앞으로 계속 중요할 것이다.
- AI 기반 검색 서비스에도 자체 검색 엔진과 SEO가 존재할 수 있으나, 그 방식은 기존과 다를 것이다.
- 다음 시대에는 소스로 채택되는 방법 뿐만 아니라 사용자 답변에 메시지를 전달하는 방법도 고려 대상이 될 수 있다.
- 사용자 경험은 여전히 중요하고, 사용자의 사용패턴을 이해하는 것이 매우 중요하다.
이 중 저희는 사용자의 패턴에 답이 있지 않을까 생각합니다. 구글과 퍼플렉시티 모두 사용자의 경험을 제일 중요하게 여기는 이유는 결국 정보 탐색하는 고객을 만족 시키기 위한 일이기 때문입니다. 사용자의 패턴을 관찰 할 수 있다면, 힌트를 얻을 수 있고, 이에 대응하여 변화에 기민하게 반응할 수 있을 것이라 믿고 있습니다. 정보 검색을 해볼 수 있는 RAG 기반 서비스를 직접 운영하여, 사용자의 새로운 도구 사용법, 도구에 기대하는바를 관찰해보려합니다. 앞으로도 힌트를 찾기 위한 기술적 시도를 계속 해 나아갈 예정입니다. 앞으로 찾은 힌트가 있다면, 계속 공유하겠습니다.
Comments ()