2008年6月9日

搜索蜘蛛新觀察

近期很多朋友會有一些疑問:

百度更新頻率為什麼加快?

為什麼我的站點今天還有幾百頁明天又剩下幾頁?

我的採集站點為什麼不收錄?

收錄頁面過少?

排名不穩定?

... ...

當然,百度最近的活動很頻繁,我們有目共睹,仿佛就在一夜之間,這些波動現象大多是出自一些新站(不到半年的站點),沒有什麼內容的站點,採集站點 (主要表現在不收錄,收錄數不穩定),今天楓林就這幾點簡單的做以闡述,不知道是巧合還鸚鵡學舌的緣故,記得去年的十月份,我們談及到的最熱門的話題也是Google的搜索幽靈現象,我們重播下鏡頭,因為07年國內SEO行 業出現了不少新人,SEO的隊伍慢慢在壯大,我們看到都深感欣慰,業內對SEO的看法也在慢慢轉變,別的不說,中小企業,包括一些門戶對SEO的重視就是 最好的證明,這點楓林深有體會,當然也是親身經歷來的,先前的紐曼,阿裏巴巴,zol等等都都曾有過招聘。楓林這裏摘錄一些關於去年Google幽靈的資 料,可以和近期百度出現種種現象作一對比進行分析:

Google有兩種網路爬蟲,主爬蟲和新爬蟲。主爬蟲主要負責發現新的網頁。一個網頁在新索引建立之後,馬上會被主爬蟲發現。如果一個網頁建立索引需要經過一個月的時間,這個網頁就會失效。

新索引的建立還需要考慮其他非詢問式的決定因素。這些決定因素關係著網頁排名的高低。為了充分利用這些網頁,而不是浪費時間等著下一次索引演算法的更新,Google必須採取一些簡單的措施來猜測排 名,猜測訪客難以利用的新內容是什麼。

儘管Google在作猜測,下列內容都是真實可信的:

1) 幽靈登陸頁上的排名不能等同於索引頁的排名。
2) 在每月新資料庫建立之前,必須將幽靈登陸頁從資料庫中移走。但是,這只是暫時的移走。

如果您的索引中有這樣登陸頁,您的主要目標應該是讓該頁在Google新頁上擁有排名。若您想做到這點,您需要定期、有規律、最好是每天,有一定間隔地更新網站內容。

為什麼您想要在Google的新頁上獲取排名?因為在新頁上有排名的網站更容易被抓取,索引更容易更新。但是在新頁上的排名不是真正的排名,新頁排名有很強的不穩定性。新頁排名轉化為真正排名需要經過一段時間。

... ...

Google搜索蜘蛛抓取一個新網頁後,這個新網頁會有什麼反映?

一個新網頁沒有被Google主目錄收取,直到:
1. 該網頁被Google主目錄搜索蜘蛛抓取。
2. 該網頁在被Google主目錄搜索蜘蛛抓取之後,須經過一段更新時間。

只有以上兩條全都滿足,新網頁被Google主目錄確確實實抓取到,新網頁上的排名才有可能轉化成真正排名 。

Google有兩種抓取形式
1. 主抓取
2. 新抓取

一個新的網頁首先被新抓取蜘蛛抓取。但也有特例的時候。在Google月更新剛剛完成那一段時間之後,一個網頁通常被主抓取蜘蛛抓取。每月更新一般在每個月的20號到28號之間,能夠持續幾天。

為了區分兩種蜘蛛的差異,我們可以先來看一下一組IP 位址。

1. “主抓取蜘蛛= 216.239.46.*
2. “
新抓取蜘蛛= 64.68.82.*

為了進一步解釋明白新網頁發生的Google幽靈現象,我們假設該網頁首先被新抓取蜘蛛抓取。在Google兩個月更新之間,新抓取蜘蛛來抓取新網頁。在主抓取期間,通過鏈結新網頁能夠被抓 取。新抓取期間,情況也是一樣。

儘管這個網頁沒有經過此次更新,也沒有收錄在Google主目錄裏,但是抓取之後,搜索蜘蛛開始衡量該網頁內容和品質,並把該網頁收錄在搜索結果裏。這次衡量是十分不穩定的,易受外界影響,經常發生變化。

當每月定期更新來臨時,這些網頁會產生波動。每月定期更新就是Google波動。但是,您需要記住,主抓取蜘蛛沒有閱讀該網頁,所以這個網頁沒 有加入主索引中。所以,當每月更新結束後,這個新 網頁仍被看作是新網頁但是不久以後,主抓取蜘蛛將會閱讀這個新網頁,在下個月更新之後,該頁面才能被收錄進主索引。這需要經歷一段時間。在此之前, Google不顯示任何導入鏈結,這個網頁的排名也因此多變、不穩定。

... ...

看完這段資料之後也許對你有所啟發,從目前狀況來看,不單單Google存在搜索幽靈現象了,百度也有幽靈出現嘍,當然,踏踏實實做站,認認真真發 展內容的站點是不用擔心這點的,搜索引擎對於所有的站點都是公平的,為什麼一些站點起步是相同的,經過半年的發展就有不同的搜索表現,不同的發展呢? Webmaster們是不是應該考慮考慮了?你們都做了些什麼?

這裏很遺憾的說聲,楓林做個人站長也有5年歷史了吧,起起落落,但是至今還不會使用採集工具,多麼累多麼難找的資料都是我和我們團隊(曾經和朋友一 起搞)一篇一篇填充進去的,當然後來會好些了,有會員填充的多些,新站剛剛起步,總該給搜索引擎留個好印象吧,所以每次聽說某某站點不收錄,某某站點被K 的消息,我都很心痛,個人站長也不容易,尤其是專職個人站長,美工,伺服器,程式,推廣等都是一個人完成的,付出那麼多,如果站點被封,或者收錄低下,域 名降權,這是件很悲哀的事情。

最近出了搜索幽靈,百度有一些新動作專門針對採集類站點,新站不收錄,收錄少,或者是收錄波動較大等怪異現象大都針對採集站了,當然一些不法站點就 更難收錄了,搜索引擎這樣做並沒有錯,搜索的宗旨是為用戶提供最優質的搜索體驗,大範圍的採集,沒有經過任何的篩選,難免有很多垃圾資訊,重複資訊,不亞 於複製站點的做法,所以前面有朋友向楓林索要整站下載器,覺得很勉強,不過我會告訴朋友,你參考別人的站點時可以的,但是不要直接拿別人的內容上傳上去就完事了,做站沒有那麼簡單。

最近也出現很多站點群建的軟體?號稱幾分鐘複製幾十個站點,真不知道這些軟體有什麼值得拿出來炫耀的,當然,有什麼效果,很多SEOer也許都試過 了,自己也清楚,最起碼我在點石看到有好多人說用了某某軟體群建了一些站點都沒有收錄,或者集體降權了。任何時候我們SEO都要明白,我們是在改善站點的 內容,改善站點的結構,目的在於給搜索引擎提供更優質的內容,更易於抓取的站點,給用帶來更好的搜索體驗,我們不能跟搜索對著幹,這樣站點被K,你也就沒 有什麼怨言了,可以坦白的說,我沒有這麼做過,我的站點也沒有被K過,唯一一次也是有驚無險,其中一個博客封了一個月,又恢復了,現在還白白胖胖的,營養 良好。

注:雖然該文在SEO博客已經發佈10多天了,但是感恩節總得拿出點東西來回報大家,回報點石這一年多來為SEO行業所作的一切。

楓林親眼看到點石一天天的成長起來,最初看到是在RobinQ簽名,便第一個進來頂貼,這裏就是最好的證明,點石為SEO界注入了一股新的力量,使得SEO走上正軌,逐漸規範化,現在很多單位和企業對SEO的重視就是最好的說明,另外,眾多SEOer在這個平臺上大公無私的分享精神更是值得我們學習和尊重,相信它她會走的更長更好,感謝Dunsh! 感謝Dunsher!

作者: 楓林
原載: 點石互動搜索引擎優化博客

版權所有,轉載時必須以鏈結形式注明作者和原始出處及本聲明。