티스토리에 구글, 네이버, 빙 같은 포털의 로봇이 접근해서 포스팅을 크롤링 해갑니다. 티스토리에 적용된 'robots.txt'를 확인하고 분석, 변경할 수 있다면 좋겠지만 블로그 입문자들에게는 어렵기만 한 내용입니다. 이번 포스팅에서는 'robots.txt'를 확인하는 방법과 분석한 내용에 대해 포스팅 하겠습니다.
robots.txt 확인 방법
티스토리 블로그에 적용된 'robots.txt'를 확인하는 방법은 간단합니다. 방법은 본인의 티스토리 블로그 주소 뒤에 'robots.txt'를 붙여주면 됩니다. 예시는 아래와 같습니다.
위와 같이 입력해서 블로그에 적용된 'robots.txt'를 확인한 결과는 아래와 같습니다. 처음에는 전체적인 내용을 보여드리고 다음 절에서 각각이 의미하는 바를 설명하겠습니다.
User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: bingbot
Crawl-delay: 30
robots.txt 분석
아래와 같이 티스토리 블로그에 적용된 로봇 텍스트를 분석 해보았습니다. 일반적인 로봇은 불필요한 카테고리를 제외한 나마지 카테고리에 접근 가능 하도록하고, 구글 에드센스에 한해서는 모든 카테고리의 접근이 가능합니다. 역시 티스토리 블로그를 하는 이유는 여기에 있어서겠죠? 그리고 빙 포털의 로봇의 과도한 크롤링이 문제가 되기 때문에 30초의 딜레이가 적용되어 있습니다.
▽ 접근하는 모든 로봇 허용
User-agent: *
▽ 불필요한 카테고리를 제외한 나머지를 허용
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /
▽ 구글 에드센스의 모든 카테고리 접근 허용
User-agent: Mediapartners-Google
Allow: /
▽ 빙 로봇의 30초 크롤링 딜레이 적용
User-agent: bingbot
Crawl-delay: 30
댓글