Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜索引擎爬蟲的溝通方式,用來指導搜索引擎更好地抓取網站內容,更好的保護用戶的隱私和版權信息。
Robots協議可能給我們網站帶來的好處:
1、 可以制止不必要的搜索引擎占用服務器的寶貴帶寬,例如,E-MAIL這類搜索引擎對大多數網站是沒有意義的;再有像image strippers,對于大多數非圖形類網站來說也沒有太大的意義,但是卻耗用了大量的帶寬。
2、 可以制止搜索引擎對非公開頁面的爬行與索引,如網站的后臺程序、管理程序,事實上,對于某些在運行中面臨頁面的網站來說,如果沒有配置robots協議,搜索引擎甚至會索引那些臨時文件。
Robots協議可能給我們帶來的風險:
給攻擊者指明了網站的目錄結構和私密數據的所在位置。雖然在WEB服務器的安全措施配置得當的前提下這不是很大的問題,但是降低了那些不懷好意者的攻擊難度。
Robots協議可以保護網絡安全,以免網絡陷入混亂的狀態,可以在信息多元化的時代為網絡傳播保駕護航。