做網(wǎng)站進(jìn)行網(wǎng)絡(luò)推廣,站長們就會(huì)想辦法怎么去引蜘蛛,而沒有幾年的經(jīng)驗(yàn)的人,并不能很好的控制豬蜘蛛的行徑。今天匯仁智杰就教您如何利用Robots協(xié)議玩轉(zhuǎn)百度蜘蛛。
什么是Robots協(xié)議:
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取Robots協(xié)議的本質(zhì)是網(wǎng)站和搜索引擎爬蟲的溝通方式,用來指導(dǎo)搜索引擎更好地抓取網(wǎng)站內(nèi)容,更好的保護(hù)用戶的隱私和版權(quán)信息。
協(xié)議目的:
1、搜索技術(shù)應(yīng)服務(wù)于人類,同時(shí)尊重信息提供者意愿并維護(hù)其隱私權(quán)
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個(gè)人信息和隱私不被侵犯
Robots.txt文件應(yīng)該放在那里?
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。舉例來說,當(dāng)spider訪問一個(gè)網(wǎng)站(http://www.baidu.com)時(shí),首先會(huì)檢查該網(wǎng)站中是否存在http://www.baidu.com/robots.txt這個(gè)文件,如果 Spider找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件內(nèi)容,來確定它訪問權(quán)限范圍。
Robots文件寫法
格式:
User-agent: 蜘蛛名稱
Disallow: 內(nèi)容名稱
Allow:內(nèi)容名稱
參數(shù)說明:
User-agent 指定搜索引擎蜘蛛名稱;
Disallow要禁止抓取的內(nèi)容;
Allow允許抓取的內(nèi)容
Robots名稱
SEO中常說的探測(cè)器(Robot)是搜索引擎用來抓取網(wǎng)頁的工具,它是一個(gè)軟件或者說一系列自動(dòng)程序。不同的搜索引擎給他們自己的探測(cè)器(Robot)起不同的名字。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
雅虎:Slurp
有道:YoudaoBot
搜搜:Sosospider
搜狗:sogou spider
360:360Spider
alexa:ia_archiver
通配符說明
*表示所有搜索引擎,用于指定蜘蛛使用。
~表示以某字符串開頭
$表示以某字符串結(jié)尾
/表示當(dāng)前目錄下的所有內(nèi)容
Robots文件寫法
制定蜘蛛:User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符
禁止寫法:Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /admin 這里定義是禁止爬尋admin目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下所有以“.htm”為后綴URL(包含子目錄)
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號(hào)(?)的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
允許寫法:Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
只有熟練的掌握Robots文件的使用,才能掌控蜘蛛的動(dòng)向。更多資訊請(qǐng)關(guān)注匯仁智杰網(wǎng)站推廣。