一、robots.txt文件的作用:
1、屏蔽網(wǎng)站內(nèi)的死鏈接。
2、屏蔽搜索引擎蜘蛛抓取站點內(nèi)重復(fù)內(nèi)容和頁面。
3、阻止搜索引擎索引網(wǎng)站隱私性的內(nèi)容。
網(wǎng)站中重復(fù)的內(nèi)容、頁面或者404信息過多,搜索引擎蜘蛛就會認為該網(wǎng)站價值較低,從而降低對該網(wǎng)站的“印象分”,這就是我們經(jīng)常聽到的“降低權(quán)重”,因此通過建立robots.txt文件給蜘蛛指路是很有必要的。
二、經(jīng)常使用到robots文件的情況
網(wǎng)站升級
老版本的很多頁面在新版本網(wǎng)站中去掉了,在這種情況下,可以通過 Robots文件告訴蜘蛛不再抓取這些已經(jīng)去掉的頁面。
網(wǎng)站存在很多重復(fù)的內(nèi)容
比如一個網(wǎng)站同時存在動態(tài)頁面和已經(jīng)經(jīng)過靜態(tài)化處理的頁面,這些頁面在內(nèi)容上都是完全重復(fù)的內(nèi)容,為了解決重復(fù)的問題,可以在Robots文件中禁止蜘蛛抓取動態(tài)頁面。
網(wǎng)站內(nèi)部有些內(nèi)容不便于公開發(fā)布,但是需要允許內(nèi)部查閱。遇到這種情況,可以在Robots中告訴蜘蛛不要抓取。
三、robots.txt文件注意事項:
1、必須放置在一個站點的根目錄下;
2、文件名必須全部小寫;
3、最好是UTF-8編碼。
四、robots.txt寫作語法
允許所有的robot訪問?
User-agent: *?
Disallow:?
或者也可以建一個空文件 "/robots.txt"?
禁止所有搜索引擎訪問網(wǎng)站的任何部分?
User-agent: *?
Disallow: /?
禁止所有搜索引擎訪問網(wǎng)站的幾個部分(下例中的01、02目錄)?
User-agent: *?
Disallow: /01/?
Disallow: /02/?
我們來看一個robots.txt范例:百恒網(wǎng)絡(luò)http://m.londonartunravelled.com/
訪問以上具體地址,我們可以看到robots.txt的具體內(nèi)容如下:
? ? ? User-agent: *
? ? ? Disallow:?
? ? ? ?Disallow: /bin/
? ? ? ?Disallow: /adminbase/
? ? ? ?Sitemap: http://m.londonartunravelled.com/sitemap.xml禁止某個搜索引擎的訪問(下例中的BadBot)?
User-agent: BadBot?
Disallow: /?
只允許某個搜索引擎的訪問(下例中的Crawler)?
User-agent: Crawler?
Disallow:
?