메뉴 바로가기 본문 바로가기
  • 2023.11.26

크롤러란? SEO를 위한 최적화 포인트 9개

크롤러는 인덱싱을 목적으로 웹의 데이터를 자동화된 방식으로 검색하는 프로그램입니다.

크롤러가 사이트를 순회하고 필요한 정보를 수집하여 검색 결과에 반영되기 때문에 SEO에 매우 중요한 역할을 합니다.

 

그래서 본 블로그에서

크롤러의 구조에 대해

SEO를 위한 크롤러 최적화 포인트 9개

크롤러 액세스를 확인하는 방법

등에 대해 포스팅합니다.

 

POINT

크롤러가 순회한 사이트가 네이버, 구글에 색인되어 검색결과에 표시됨

크롤러 사이트의 순회 용이성을 크롤러빌리티라고

XML Sitemap에 등록이나 내부 링크의 최적화, 페이지 표시 속도의 개선 등으로 개선한다

 

목차

크롤러란?

크롤러의 중요성

검색엔진 검색에서 크롤링 흐름

SEO를 위한 크롤링 최적화 9가지 포인트

크롤러 액세스를 확인하는 세 가지 방법

크롤러는 SEO 측면에서도 중요한 역할을 하고 있다

크롤러란?

크롤러는 콘텐츠를 색인화하는 등의 목적으로 웹상의 데이터를 자동화된 방식으로 검색하는 프로그램입니다. '스파이더'나 '봇'이라고도 하며, 크롤러가 검색하고 데이터를 얻는 것을 '크롤링'이라고 합니다.

 

크롤러의 작동 방식

크롤러는 웹사이트의 소스를 분석하고 거기에 쓰여진 텍스트, 이미지, PDF, 링크 등의 정보를 수집하는 역할입니다. 웹사이트 링크를 따라(클롤링) 페이지를 찾고 정보를 수집합니다.

 

구글의 경우 크롤러가 수집한 정보를 데이터베이스에 저장하고 크롤링으로 얻은 정보를 기반으로 인덱스, 순위를 매기고 있습니다.

 

크롤러의 종류

크롤러는 얻는 정보에 따라 여러 유형이 있으며 구글이라면 다음 세 가지 크롤러가 있습니다.

 

다양한 정보를 수집하는 'Googlebot'

이미지용 'Googlebot-Image'

동영상용 'Googlebot-Video'

 

그 외에도 다음 네이버 나 다음 등 브라우저마다 크롤러가 있습니다.

 

이처럼 크롤러라고 해도 취득하는 데이터에 따라 다양한 종류가 있으며, 각각이 밤낮으로 인터넷을 검색하여 데이터를 계속 모으고 있습니다.

 

크롤러의 중요성

크롤러가 정보를 수집하지 않으면 인덱스(데이터베이스에 등록)되지 않으므로 검색 결과에도 나타나지 않습니다.

 

검색 결과에 올라가지 않으면 사용자가 기사에 도달하기 어려워 버리기 때문에 읽을 기회가 줄어 듭니다.

 

또한 크롤러가 검색하는 것으로 검색 순위가 갱신된다 (정확하게는 크롤러가 모아 온 정보를 바탕으로 네이버, 구글이 검색 순위를 재판정한다) 때문에 기사나 웹페이지를 갱신한 타이밍에 다시 크롤링해야합니다.

 

이와 같이, 검색 결과를 타기 위해서는 먼저 크롤러에 검색 해줘서, 작성한 페이지를 인덱스 해 주어야 합니다.

 

따라서 SEO에서 크롤러는 매우 중요한 역할을합니다.

Google 검색에서 크롤링 흐름

Google 크롤러가 색인화될 때까지의 흐름을 확인하세요.

 

【1】크롤 큐

크롤링의 전 단계로 XML Sitemap과 과거 크롤링으로 얻은 URL을 나열하는 단계로 크롤링 대기열이 있습니다.

Google Search Console의 커버리지 '검출'이 이에 해당하는 이미지를 가져 주실 수 있으면 좋겠습니다.

 

【2】크롤

위에서 설명한 대로 크롤링 시 텍스트, 이미지, PDF, 링크 등의 정보를 얻는 것 외에 사이트의 업데이트된 포인트 등도 취득합니다.

여기에서 찾은 링크는 추적할 수 있는 경우 크롤링 대기열에 추가됩니다.

 

【3】HTML 퍼스 렌더링

간단히 설명하면 '크롤링하여 얻은 정보를 바탕으로 검색 엔진이 (우리가 브라우저에서 볼 수 있듯이) 콘텐츠를 표시하려고합니다'라는 작업이 수행됩니다.

 

이 과정을 통해 사용자와 마찬가지로 페이지를 시각적으로 이해하고 검색 엔진이 색인을 생성할지 여부를 결정할 수 있습니다.

 

【4】인덱스

색인은 검색 엔진 데이터베이스에 웹 페이지가 등록됨을 의미합니다. "①~③에서 얻은 정보가 Google 데이터베이스에 등록된다"는 이해로 좋을 것입니다.

인덱싱되어 처음 검색 결과에 표시됩니다.

 

【5】랭킹

인덱싱된 페이지를 키워드별로 어떤 순서로 표시할지 순위를 매깁니다. 이른바 검색 순위이며 랭킹 알고리즘에 의해 자동으로 순위가 매겨집니다.

 

이와 같이 Google 검색의 크롤링은 검색결과를 표시하기 위한 정보를 수집하는 작업입니다. 예를 들어 크롤링을 검색 엔진이 하지 않으면 영원히 같은 페이지가 검색 결과에 계속 나오게 되어 사용자가 유용한 정보를 얻을 수 없게 됩니다.

 

한편, 이 세상의 모든 URL을 네이버, 구글의 크롤러가 크롤링하는 것은 불가능하고, 각 사이트마다 크롤링의 할당이 행해지고 있습니다.

 

크롤링 할당은 사이트의 인기, 사용자의 가치 등에 따라 결정됩니다. 그러나 인기가 있어도 페이지 당 크롤링 부하가 높고 크롤링해야 할 페이지가 필요한 것보다 많으면 적절하게 크롤링 할 수 없습니다.

 

SEO를 위한 크롤링 최적화 9가지 포인트

앞서 말했듯이 크롤러는 반드시 모든 웹페이지를 빠짐없이 순회할 수 있는 것은 아니며, 공개한 페이지를 곧바로 발견해 준다고는 할 수 없습니다.

 

그 때문에, SEO를 실시하는데 있어서는, 크롤러가 가능한 한 웹사이트내를 효율적으로 순회하기 쉽게 하기 위한 궁리가 요구됩니다.

 

이러한 검색 엔진 크롤러 웹사이트의 순회 용이성을 총칭하여 '크롤러빌리티'라고 부릅니다. 1,000페이지 이하의 URL수 밖에 가지지 않는 사이트에 있어서는, 대부분의 경우, 크롤링은 효율적으로 행해지므로 의식은 하지 않아도 됩니다.

 

수만 개 이상의 페이지가 있는 대규모 사이트의 경우, 크롤링 우선순위를 지정하는 것이 중요하며 '크롤러빌리티'를 의식해야 합니다.

 

여기에서는 크롤러빌리티를 높이기 위한 포인트를 9개 소개합니다.

 

 

【포인트 1】XML Sitemap의 작성・등록

 

【포인트 2】 웹페이지 목록 설정

 

웹페이지 목록은 사이트의 계층 구조를 알 수 있는 표기 부분을 가리킵니다.

 

웹페이지 목록이 있으면 크롤러뿐만 아니라 독자도 기사의 카테고리를 파악하기 쉬워집니다.

 

예를 들어 웹페이지 목록이 다음과 같은 형태로 되어 있다면 '오운미디어의 SEO에 관한 사이트 디자인 이야기'라고 이해하기 쉽지 않습니까?

 

「HOME>SEO>오운미디어>사이트 설계로 조심해야 할 일」

 

이와 같이 사이트를 검색하는 크롤러에게도, 지금 읽고 있는 기사가 어떤 기사로, 어떤 카테고리를 단적으로 전할 수 있으므로 설치해 두는 것을 추천합니다.

 

또한 WordPress의 경우, 웹페이지 목록의 설치는 템플릿의 카테고리 설정 또는 플러그인의 도입으로 설치할 수 있습니다.

 

다만, 이미 대량에 기사가 있는 상태로 웹페이지 리스트를 설정하는 경우는, 카테고리 나누기에 고민해 버리는 일이 있을지도 모릅니다. 미리 사이트 설계를 재검토한 후, 리스트를 설정하는 것을 추천합니다.

 

【포인트 3】내부 링크의 최적화

 

 

링크는 크롤링을 하는 데에 페이지 발견의 요인이 됩니다.

 

내부 링크가 거의없는 페이지를 만들지 않음

검색엔진이 추적할 수 없는 형식으로 링크를 만들지 않음

링크는 유저 최우선의 사고방식으로 설치해도 상관없습니다만, 최소한 이점만은 신경쓰고 사이트에 링크를 설치해 갑시다.

 

※네이버, 구글 검색엔진은 href 속성이 지정된 a 태그만 링크를 따라갈 수 있습니다.

 

【포인트 4】 robots.txt 설정

스테이징 환경의 미완성 페이지나, 요 로그인 페이지, 회원 한정 컨텐츠 등 크롤링할 필요가 없는 페이지가 대량으로 존재하고 있는 경우는, robots.txt로 disallow를 설정합시다.

 

단, disallow를 설정해도 외부 링크 등을 바탕으로 색인되는 경우가 있으므로 검색 결과에 표시하지 않으려면 noindex를 부여하는 것이 좋습니다.

 

【포인트 5】 URL을 재검토하고 통일한다

'https://'나 'www'가 없거나 URL이 복수로 나누어지거나 하고 있는 경우는 '1개의 페이지에 정리하는 것'이 추천입니다. 구체적으로는, 리디렉션을 하고 알림을 크롤러가 파악할 수 있도록 합시다.

 

URL의 통일을 할 때의 리디렉션은, 「301 리다이렉트」가 추천입니다. '302 리디렉션'은 URL이 일시적으로 변경될 때 사용하는 방법이므로 주의하세요.

 

【포인트 6】 URL 파라미터 설정

사이트 내에서 검색 결과를 가지고 있는 EC 사이트나 구인 사이트 등에서는 대량의 페이지가 생성됩니다. 그중에는 내용이 중복되어 있는 페이지도 대량으로 생성되기 때문에, 중요도가 낮은 페이지는 Google 검색 콘솔의 URL 파라미터의 제어를 이용해 특정의 파라미터, 또는 특정의 값이 포함된 파라미터를 포함된 URL이 크롤링되지 않도록 합니다.

 

다만, 파라미터를 설정했다고 해서 확실히 크롤링되지 않게 되는 것은 아닙니다. 크롤링의 효율성을 돕는 아이디어가 적절할 것입니다.

 

참고: Search Console 고객센터, 해외 SEO정보 블로그

 

【포인트 7】 링크가 끊어진 페이지는 삭제한다

크롤러는 링크를 따라 사이트 내를 검색하고 있기 때문에, 링크가 끊기 페이지가 있으면 검색 할 수 있었을 것의 페이지에 갈 수 없게 되어 버립니다.

 

또, 링크 끊김이 너무 많으면 웹사이트를 방문한 독자에게 스트레스를 주어 버려, 도중에 이탈해 버리는 것에 연결될 수 있습니다. 그 결과, SEO에서 마이너스 평가가 되어, 웹페이지의 순위가 내려가 버리는 원인이 되는 경우도 있습니다.

 

때문에, 평소에 링크가 끊어진 페이지는 없는지, 링크가 끊어져 도착할 수 없는 페이지가 발생하고 있는지 체크하는 것을 추천합니다. 연결이 끊긴 페이지는 구글 서치 콘솔 검사 도구로 쉽게 확인할 수 있습니다.

 

링크 끊김에 의한 영향이나 구체적인 확인 방법에 대해서는, 이하를 읽어 주세요!

 

 

【포인트 8】 페이지 표시 속도 개선

 

사이트 표시 속도를 높이면 사용자 편의성이 향상될 뿐만 아니라 크롤러 크롤링 속도도 높아집니다. 서버 오류나 시간 초과가 많으면 서버 상태에 문제가 있는 것으로 간주되어 크롤링이 느려집니다.

 

또한 서버 측 문제뿐만 아니라 이미지 파일, CSS, Javascript 등의 리소스에 대해서도 크롤러빌리티에 영향을 미칩니다.

 

【포인트 9】Javascript 최적화

네이버, 구글 크롤러는 최신 버전의 Chrome과 동등한 렌더링 기능을 가지고 있으며 일반적으로 JavaScript를 실행할 수 있다고 생각할 수 있습니다.

 

그러나, 페이지 표시까지 기다려 주는 브라우저와 달리, 렌더링시에 자바스크립트의 실행에 시간이 걸리는 경우는, 해당 부분의 렌더링을 실시할 수 없는 경우도 발생해 최악의 경우 인덱스 되지 않는 일도 있습니다.

 

또한 검색엔진은 사이트 콘텐츠를 클릭할 수 없기 때문에 클릭하여 실행되는 JavaScript 등은 기본적으로 크롤링할 수 없습니다.

 

그럼에도 불구하고 이전에 비해 구글 크롤러의 자바스크립트 처리 능력은 현저히 올라가고, 별로 의식하지 않더라도 크롤링 인덱스는 됩니다.

 

하지만 자바스크립트를 많이 사용하는 사이트 등에서 일절 배려하지 않으면 인덱스에 악영향이 있을 가능성도 아직 높습니다.

 

크롤러 액세스를 확인하는 세 가지 방법

 

마지막으로 크롤러가 검색했는지 확인하는 방법을 소개합니다.

 

【방법 1】 페이지 단위로 확인하기

【방법 2】 사이트 전체의 크롤링 정보 확인

【방법 3】응답 확인

 

【방법 1】 페이지 단위로 확인하기

URL 검사 기능을 사용하면 대상 URL이 마지막으로 크롤링된 시점을 볼 수 있습니다. 절차는 Search Console을 열고 사이드 컬럼의 "URL 검사"또는 페이지 상단의 입력창을 클릭하고 확인하고 싶은 페이지의 URL을 입력하십시오.

 

덧붙여 말미의 슬래시의 유무 등에서도 다른 URL로서 인식되기 때문에, 확인할 때에는 주의합시다. URL 검사의 커버리지 탭에는 마지막 크롤링 날짜와 그 상황이 나와 있습니다.

 

등록여부는 사이트와 페이지에 따라 다릅니다.

 

예를 들어 매일 업데이트되는 순위 페이지에서 크롤링 간격이 상당히 비어 있는 경우 크롤링에 문제가 있을 수 있습니다. 이 경우 구글 서치 콘솔에서 크롤러를 요청하십시오.

 

한편, 단어의 의미가 변하지 않는 사전과 같은 콘텐츠의 페이지라면 페이지 갱신 빈도가 낮기 때문에 크롤링 빈도가 비어있더라도 큰 문제가 되지 않는 경우가 많습니다.

 

【방법 2】 사이트 전체의 크롤링 정보 확인

사이트 전체의 크롤링 정보를 확인하고 싶을 때는 「크롤링 통계」가 편리합니다.

 

사이트와 비교할 수 있는 것도 아니고, 시책에 빠지기 힘들기 때문에, 주목해 주셨으면 하는 것은 이하의 2점이 됩니다.

 

크롤링하려는 페이지 수와 일일 크롤링 요청 수 비교

크롤링 요청은 웹사이트 규모 및 기타 요인에 의해 결정되며, 많으면 좋지 않습니다. 하지만 사이트를 인덱싱하려는 페이지 수와 비교하여 크롤링 요청 수가 적은 상태가 지속적으로 지속되는 경우 사이트에서 크롤링을 방해하는 요인이있을 수 있습니다.

 

또한 크롤링 요청 횟수가 급격히 떨어지거나 늘어나는 경우에는 주의해야 합니다. 크롤 수가 크게 증감하는 데는 어떤 원인이 있어 인위적인 실수가 숨어 있는 경우도 있기 때문입니다.

 

예를 들어 robots.txt에서 새로 추가한 규칙이 작용하고, 페이지의 HTML이 손상되었거나, 서버에 부하가 걸려 사이트가 무거워지고 있다는 원인이 될 수 있습니다. 크롤링 빈도가 어느 날 갑자기 크게 변동했을 때 그 원인을 찾습니다.

 

호스트 상태에서 오류가 발생하지 않았습니까?

여기에서 "robots.txt 얻기", "DNS 해결", "서버 연결"의 세 가지 항목에서 오류가 발생했는지 확인할 수 있습니다. 오류가 발생하면 크롤링뿐만 아니라 사이트 자체에서 문제가 발생했을 수 있으므로 정기적으로 확인하십시오.

 

【방법 3】응답 확인

'응답 확인'에서는 크롤링 시 수신한 응답의 데이터를 확인할 수 있습니다.

 

정상적인 사이트의 경우는 OK(200)나 301, 302 리디렉션, 발견되지 않았습니다(404)등이 중심이 됩니다만, 서버 에러나 클라이언트 에러의 수가 많은 경우에는 그러한 페이지를 수정할 필요 있습니다.

 

※404 에러 자체는 어느 사이트에서도 발생하는 것으로, 의도적이지 않은 404 에러를 제외하고, 일정 수 있는 것이 통상입니다.

 

크롤러는 SEO 측면에서도 중요한 역할을 하고 있다

여기까지 크롤러, 네이버, 구글 검색의 크롤링, 크롤링 최적화의 포인트, 크롤링 확인 방법 등을 설명했습니다.

 

다시 마지막으로 명기해 두면 모든 사이트에서 크롤링이 문제가 되는 것은 아닙니다. 수백 페이지가 넘는 사이트라면 구글 크롤러가 잘 크롤링합니다.

 

그러나 사이트를 시작할 때 등 가능한 한 검색 엔진 친화적 인 사이트를 염두에두는 것과 그렇지 않은 것은 큰 차이가 있습니다.

 

별로 SEO에 힘을 넣지 않는 예정의 사이트일수록, 최초의 타이밍으로 가능한 한 대응합시다.

 

아커스는 SEO를 메인으로 하는 지원 최적화 서비스를 실시하고 있습니다. 전문가의 조언을 듣고싶다면 아래의 문의하기로 신청해주시기 바랍니다.