2008年11月2日

文件robots.txt的新增特性及REP meta標籤

發表者: John Blackburn (站長工具組),Matt Dougherty, 搜索質量組

原文: New robots.txt feature and REP Meta Tags
發表於: 2007年8月15日,星期三,下午4時01分

我們已經改進了站長中心的分析工具,使之能理解網站地圖(sitemap)的聲明和相關的URL。較早的版本並不認識網站地圖,且僅僅理解絕對的URL;其他的任何東西都被報錯成「不理解你的語法」。現在改進後的版本會告訴你網站地圖的URL和範圍是否正確。您還可以對相關的URL測試並少了許多輸入工作。

現在生成的報告也好多了。你可以在一行中知道多個問題的答案(如果有的話)。不像早期版本,一行僅第一個遇到的問題給出答案。同時,我們也在其他用以分析和驗證的功能上取得了改進。

假設你負責域名www.example.com,你希望搜索引擎索引你網站的除/images文件夾之外的一切內容。您還想確保你的網站地圖被搜索引擎知道,那麼你可以使用以下內容作為你的robots.txt文件:

disallow images

user-agent: *
Disallow:

sitemap: http://www.example.com/sitemap.xml

你可以訪問站長中心,使用robots.txt分析工具對你的網站進行測試,用這兩個URL作測試:

http://www.example.com
/archives

站長工具的較早版本將會報錯:



改進版會告訴你關於robots.txt文件的更多信息:

<META NAME='GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST '>


你可以在http://www.google.com/webmasters/tools看到以上信息。

我們還希望確保你聽說過新的unavailable_after元標籤,該標籤由Dan Crow數週前在Google官方博客中宣佈。該標籤可增加你的站點和谷歌的googlebot間的互動。試想,對www.example.com,有時你有一個臨時性的新聞故事,限時公司促銷,或一個宣傳頁,你可以對特定頁面指定確切的日期和時間,來阻止被抓取和索引。

讓我們假設你的一個促銷活動有效期截至2007年年底。在www.example.com/2007promotion.html的源碼開始,你可以使用以下行:



另一個令人振奮的消息是新的X-Robots-Tag指令。它增加了機器人排除協議(REP) META標籤,該標籤為非HTML網頁提供支持!你終於可以控制對你的錄像,電子表格,及其他索引文件類型的索引,就像控制對HTML頁面的索引一樣。還是上面的例子,比方說你的宣傳頁面是PDF格式。在文件www.example.com/2007promotion.pdf 中,你可以增加以下行:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST

請記住,REP META標籤可用於實現針對頁面索引控制的noarchive,nosnippet,及現在的unavailable_after標籤。這和 robots.txt不同,robots.txt是對整個域名進行控制的。我們是應博客們和網站管理員的要求而增加這些特性的,請試用。如果你有其他的建議,也請隨時提出。想問一些問題?請在我們的網絡管理員幫助組裡提問。