諸事大吉: 拒絕搜尋網站抓資料-robots.txt

2010年11月13日星期六

拒絕搜尋網站抓資料-robots.txt

今天發現 server 的 apache 服務吃重，看了一下 log ，發現是百度在 spider 資料，看了它的網站的資料，才知道，原來可以設定 robots.txt 檔案，拒絕這類的 spider 程式來抓資料。動作很簡單，在 apache DocumentRoot 裡，放一個 robots .txt 文字檔，內容若是
User-agent: *
Disallow: /
就表示拒絕所有的 spider 。
其餘內容，可以參考
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/robots.html
http://www.robotstxt.org/orig.html

沒有留言:

張貼留言

2010年11月13日 星期六

拒絕搜尋網站抓資料-robots.txt

沒有留言:

2010年11月13日星期六