2010年11月13日 星期六

拒絕搜尋網站抓資料-robots.txt

今天發現 server 的 apache 服務吃重,看了一下 log ,發現是百度在 spider 資料,看了它的網站的資料,才知道,原來可以設定 robots.txt 檔案,拒絕這類的 spider 程式來抓資料。動作很簡單,在 apache DocumentRoot 裡,放一個 robots .txt 文字檔,內容若是
User-agent: *
Disallow: /

就表示拒絕所有的 spider 。
其餘內容,可以參考
http://www.baidu.com/search/spider.htm
http://www.baidu.com/search/robots.html
http://www.robotstxt.org/orig.html

2010年11月9日 星期二

elgg 和 hadoop

elgg,開放原始碼的社群網站
http://www.elgg.org/
Introducing a powerful open source social networking engine


hadoop,提供大量資料的分散式運算環境
http://hadoop.apache.org/
以下為相關訊息
http://zh.wikipedia.org/zh-tw/Hadoop
http://www.ithome.com.tw/itadm/article.php?c=58008
http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

2010年11月8日 星期一

sshfs

前陣子在使用 clonezilla 備份系統時,發現有 ssh 方式掛載,注意了一下它的動作,以下是在 clonezilla 裡看到的動作:
sshfs -o nonempty -p 22 username@ip:"/home/username/clonezilla" /home/partimg

事後找了一下文章,實測了一下,將遠距的主機透過 ssh 方式掛載,還真的很方便好用。

2010年11月7日 星期日

Ubuntu 線上聽 radio

全世界各國的都有,以下是選擇了台灣地區的。
http://www.mediayou.net/web/search.asp?lan=twn

其實這個網址裡,不論是 linux 下或 windows 都可以使用,沒有 ie only 的限制。

2010年11月6日 星期六

ubuntu 10.04 安裝 netbean 6.9.1 執行 C++

在 netbean 裡的 Tools/Options/ C/C++ 標籤裡確定以下三行:
Base Directory: /usr/bin
C Compiler: /usr/bin/gcc
C++ Compiler: /usr/bin/c++

如果還是有問題,再做以下動作。

參考網站: http://wybaby.blogbus.com/logs/75539546.html

依上方網站,安裝以下套件

NetBeans这家伙还真大

sudo aptitude install netbeans

GTK的安装

apt-get install build-essential #这将安装gcc/g++/gdb/make 等基本编程工具

apt-get install gnome-core-devel #这将安装 libgtk2.0-dev libglib2.0-dev 等开发相关的库文件

apt-get install pkg-config #用于在编译GTK程序时自动找出头文件及库文件位置

apt-get install devhelp #这将安装 devhelp GTK文档查看程序

apt-get install libglib2.0-doc libgtk2.0-doc #这将安装 gtk/glib 的API参考手册及其它帮助文档

apt-get install glade libglade2-dev #这将安装基于GTK的界面GTK是开发Gnome窗口的c/c++语言图形库。

apt-get install libgtk2.0*, gtk+2.0所需的所有文件统通下载安装完毕。