크롤링(Crawling)
(엎드려) 기어다닌다는 의미로 전산, IT 분야에서는 웹을 돌아다니면서 정보를 수집하는 행위를 지칭합니다. 이외의 SEO 관련 용어가 궁금한 분들은 이곳에서 더 자세하게 확인할 수 있습니다.
크롤링 체크리스트
크롤링이 가능한지 체크하는 작업은 테크니컬 SEO 전략의 기초입니다. 검색 봇은 페이지를 크롤링하여 사이트에 대한 정보를 수집합니다.
어떤 식으로든 이러한 봇의 크롤링이 차단되면 페이지의 인덱스를 생성하거나 순위를 지정할 수 없습니다. 테크니컬 SEO를 구현하는 첫 번째 단계는 모든 중요 페이지에 액세스할 수 있고 쉽게 탐색할 수 있도록 만드는 것입니다.
이어서 크롤링 적합 여부를 확인하기 위해 검사해야 하는 웹 사이트 요소와 체크리스트에 추가해야 할 몇 가지 항목에 대해 다뤄보겠습니다.
1. XML 사이트맵을 만드세요.
2. ‘크롤링 예산’을 극대화하세요.
3. 사이트 구조를 최적화하세요.
4. URL 구조를 설정하세요.
5. robots.txt를 활용하세요.
6. 사이트 이동 경로 메뉴(breadcrumb, 브레드크럼)를 추가하세요.
7. 페이지네이션을 사용하세요.
8. SEO 로그파일을 체크하세요.
테크니컬 SEO는 사이트 구조, 모바일 최적화 그리고 페이지 속도와 같이 오가닉 검색의 유입량을 강화하는 페이지 내부의 요소들을 의미합니다. SEO의 이러한 요소들은 그다지 멋져 보이지 않을지라도 매우 중요하다는 건 사실입니다.
테크니컬 SEO를 개선하는 첫 번째 단계는 사이트를 분석하여 자사의 사이트가 현재 어디쯤 있는지 파악하는 것이며 두 번째 단계는 부족한 영역을 해결하기 위해 계획을 세우는 것입니다. 이어지는 글에서는 어떤 계획을 세워야 할지 좀 더 살펴보겠습니다.
1. XML 사이트맵을 만드세요.
이전 포스트에서 살펴본 사이트 구조를 기억하시나요? 이는 검색 봇이 웹 페이지를 이해하고 크롤링하는 데 도움을 주는 XML Sitemap이라는 것에 속합니다. 일종의 웹 사이트 지도인 셈입니다. 사이트 맵이 완성되었다면 Google Search Console 및 Bing 웹 마스터 도구에 제출하세요. 웹 페이지를 추가하거나 제거할 때에는 사이트 맵을 최신 상태로 유지해야 한다는 점, 잊지 마세요!
2. ‘크롤링 예산’을 극대화하세요.
‘크롤링 예산’이란 사이트 검색 봇이 크롤링할 페이지 및 리소스를 의미합니다. 크롤링 예산은 무한하지 많으므로 크롤링한다면 중요 페이지들의 우선순위를 지정하세요.
다음은 크롤링 예산을 극대화할 수 있는 몇 가지 팁입니다.
- 중복되는 페이지를 제거하거나 통합 (canonicalize, 표준화) 합니다.
- 깨진 링크를 고치거나 리디렉션을 설정합니다.
깨진 링크(Broken link)
영구적으로 이용할 수 없는 웹 페이지나 서버를 가리키는 웹상의 링크를 의미합니다. 죽은 링크(dead link)라고도 부릅니다.
- CSS 그리고 자바스크립트 파일이 크롤링가능한 상태인지 확인하세요.
- 크롤링 관련 통계를 정기적으로 확인하고 갑작스러운 감소 또는 증가는 없는지 주시하세요.
- 크롤링을 허용하지 않는 모든 봇이나 페이지를 차단하세요.
- 사이트맵을 최신 상태로 유지하고 적절한 웹 마스터 도구에 제출하세요.
- 사이트에서 불필요하거나 오래된 콘텐츠를 정리합니다.
- 사이트의 페이지 수를 급증시키는 동적 URL의 생성에 주의하세요.
3. 사이트 구조를 최적화하세요.
대부분의 웹사이트는 복수의 페이지를 가지고 있습니다. 이 페이지들은 검색 엔진이 쉽게 찾고 크롤링할 수 있도록 구성되어야 합니다. 웹사이트 구조 – 웹사이트 정보 구조로도 불리는 – 란 바로 이런 것입니다.
건물이 설계도를 기반으로 하듯이, 페이지 역시 사이트 구조를 기반으로 합니다.
관련된 페이지를 서로 그룹화하세요. 예를 들어서 블로그의 홈페이지는 각 게시물과 연결될 것이고, 각 게시물은 해당 게시물의 작성자 페이지와 연결되어 있을 겁니다. 이러한 구조는 검색 봇이 페이지 간의 관계를 이해하는 데 도움을 줍니다.
또한 사이트 구조는 개별 페이지의 중요성을 반영해야 하고 동시에 개별 페이지 역시 사이트 구조에 따라 생성되어야 합니다. 홈페이지와 가까운 A라는 개별 페이지가 있다고 가정해봅시다. 페이지 A는 홈페이지와 가까운 만큼 많은 링크와 연결되어 있을 터이고, 검색엔진은 페이지 A 가 그만큼 중요하다고 판단할 것입니다.
예를 들어서 홈페이지에서 페이지 A로 이어지는 링크는 블로그의 개별 게시물 링크보다 더 중요합니다.
개념상으로 따지자면 사이트 구조는 회사소개, 제품, 서비스, 뉴스 등의 페이지가 높은 중요도를 보이고 그에 따른 위계구조를 형성하는 모습입니다.
사업 상 가장 중요한 페이지가 가장 많은 수의 내부 (관련) 링크들과 연결되어 있는지 그리고 가장 높은 위계를 보여주는지 확인하세요.
4. URL 구조를 설정하세요.
URL 구조는 사이트 구조에 따라 결정될 수 있는 URL을 어떻게 구성하느냐를 나타냅니다. 좀 더 자세한 설명은 이어지는 글에서 마저 하겠습니다. 먼저 URL은 blog.hubspot.com과 같은 하위 디렉터리 그리고/혹은 URL이 어디로 이어지는지 나타내는 hubspot.com/blog와 같은 하위 폴더로 구성될 수 있습니다.
예를 들어 “강아지 셀프 미용하는 방법”이라는 제목의 블로그 포스트를 발행한다면, 블로그의 하위 도메인이라 하위 디렉터리 아래로 들어갈 것입니다. 이에 따라 URL은 www.bestdogcare.com/blog/how-to-groom-your-dog 등으로 만들 수 있습니다. 반면에 같은 사이트의 제품 페이지는 www.bestdogcare.com/products/grooming-brush 등으로 만들 수 있습니다.
URL에서 하위 도메인 혹은 하위 디렉터리를 사용할지 아니면 “products”나 “store”을 사용할지는 전적으로 독자 여러분에게 달려있습니다. 자신만의 웹사이트를 만든다고 했을 때에 장점은 스스로 규칙을 만들 수 있다는 점입니다. 중요한 것은 이러한 규칙이 통합된 하나의 구조를 따라야 한다는 점입니다. 즉 서로 다른 페이지라고 blog.yourwebsite.com이나 yourwebsite.com/blogs를 혼용하면 안 된다는 뜻입니다. 로드맵을 만들어 URL 명명 구조에 적용하고 이를 쭉 고수하세요.
다음은 URL 작성 방법에 대한 몇 가지 추가적인 팁입니다.
- 소문자를 사용하세요.
- 대시를 사용하여 단어를 분리하세요.
- 짧으면서도 내용을 설명할 수 있는 URL로 작성하세요,
- (전치사를 포함한) 불필요한 문자나 단어를 사용하지 마세요.
- 타겟팅하는 키워드를 포함시키세요.
URL 구조를 결정했다면 중요한 페이지의 URL 목록을 XML 사이트 맵 형식으로 검색엔진에 제출하세요. 이를 통해 검색 봇은 사이트에 대한 추가적 컨텐스트를 제공받고, 크롤링하며 따로 알아낼 필요를 덜어냅니다.
여기까지 쭉 읽어내려오신 자신을 위해 크게 박수쳐주세요. 👏🏼👏🏼👏🏼
이어지는 콘텐츠에서는 인덱스와 접근성, 검색순위 체크리스트에 대해서 마저 알아보겠습니다.