2010年11月13日 星期六

拒絕搜尋網站抓資料-robots.txt

今天發現 server 的 apache 服務吃重,看了一下 log ,發現是百度在 spider 資料,看了它的網站的資料,才知道,原來可以設定 robots.txt 檔案,拒絕這類的 spider 程式來抓資料。動作很簡單,在 apache DocumentRoot 裡,放一個 robots .txt 文字檔,內容若是
User-agent: *
Disallow: /

就表示拒絕所有的 spider 。
其餘內容,可以參考
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/robots.html
http://www.robotstxt.org/orig.html

沒有留言: