今天發現 server 的 apache 服務吃重,看了一下 log ,發現是百度在 spider 資料,看了它的網站的資料,才知道,原來可以設定 robots.txt 檔案,拒絕這類的 spider 程式來抓資料。動作很簡單,在 apache DocumentRoot 裡,放一個 robots .txt 文字檔,內容若是
User-agent: *
Disallow: /
就表示拒絕所有的 spider 。
其餘內容,可以參考
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/robots.html
http://www.robotstxt.org/orig.html
沒有留言:
張貼留言