淺談百度快照抓取網站的原理及問題
添加時間:2012/8/10 13:24:20 編輯:奇億網站建設公司
網站在搜索引擎(SE)里的具體表現,是每個SEO都非常關注的問題,SEO工程師經常根據快照來分析網站的狀態,針對快照的更新情況來做調整,以便更好地優化或者提升網站的綜合指標。快照,在搜索引擎中的應用,為分析網站提供了有利的條件因素。
我們拿百度來舉個例子,其他搜索引擎的原理都大同小異。百度快照的定義,參見百度搜索幫助:每個未被禁止搜索的網頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。而官方給百度快照賦予的功能就是,在查詢結果中將要打開的網頁無法打開或者載入速度很慢的時候,“百度快照”可以快速瀏覽頁面內容。
百度快照的原理,百度搜索引擎內部搜索程序對網絡上的數據進行組織處理的過程,對文件數據會進行索引存儲的具體體現就是百度快照。通俗來講,百度獲取數據的過程,就是分發出百度蜘蛛,在整個互聯網通過彼此的鏈接互通情況下獲取數據;而百度快照是在百度蜘蛛通過某一鏈接到達新的網站或單個頁面時,對這個網站首頁或者單個頁面的數據存儲;百度內部機制會根據具體的算法,對數據進行歸類索引緩存,用戶檢索時,百度在通過提取數據庫服務器中索引的緩存數據,就看到了的快照。
我們經常會發現百度快照有時候更新,有時候卻又很久都不變,那百度快照到底有什么幾率呢,其實這一切都在服務器日志中可以看到。
百度快照很多站長在抱怨我的快照一直停留在23 24 16這樣的時間 每個月更新一次,有的甚至半年沒更新
快照也是一個搜索引擎的附加程序作為搜索引擎的一環 所有的程序都要求是處理最優結果,節省運算時間為前提處理數據。所以百度對于每個網站都有一個快照更新的評級,在百度這個現象很明顯,當然對主頁和內頁的評級也是不同的這個不多贅述
他評級的標準就是按 幾次蜘蛛抓取的數據分析,數據大幅度更新(比較一組數據,更新量大到一個值的時候)
舉個很概念的例子:百度標準數據更新值如果是7,你頁面蜘蛛抓取第一次和第二次做對比 更新值是3不達標,第三次抓取跟第一次對比數據更新是8了,OK截取第一次和第三次之間的時間間隔。
當然這個是很籠統的說法,百度要進行幾次對比后取個均衡量做評判,這個就不是我們能知道的,但是這樣的一個算法的原理我們知道了
這樣的做法就是可以讓快照程序有針對性的去更新網站的快照,而不是所有網站不分類別一起更新,這樣對運算的時間和成本節省不少
知道有這么個評級之后所有的事情都好辦了,這個評級百度沒有公開,目前也不知道百度對一個網站重新評估 更新 評級的間隔是多少時間
但是SEO要做的事情如果是讓更新快照的頻率更高的話其實很簡單
既然我們知道原理了,我們就有針對的操作方法
第一步 查看你的服務器日志,了解一下百度蜘蛛對于你的網站頁面抓取的規律
第二步 知道蜘蛛對一個頁面抓取的時間間隔之后,列出一個內容更新時間表
第三步 在每相鄰兩次次蜘蛛抓取間隔中更新你的頁面內容,集中在這個時間段內更新(舉例:比如你本來更新內容是10小時,但是這10小時中蜘蛛已經來過三次了那么你就要想辦法把這10小時的量更新在一次間隔中盡量壓縮-以上舉的時間只是個例子具體看網站具體情況)能夠頻繁的更新是最好的了
百度快照的常見問題:
一、快照不更新。
問題分析:導入鏈接扇入面積不大,也就是網站的外部鏈接過少;網站長時間不更新或更新沒有規律;對網站進行改版或空間不穩定。
解決辦法:通過對百度快照定義原理的理解,百度只有通過鏈接抓取、索引本站數據建立快照的,為百度蜘蛛營造更順暢的多條通路到達網站就是最好的解決辦法。
二、快照更新不及時。
問題分析:和快照不更新問題一樣,但在這里說明的原因是百度的審核機制,會對網站數據過濾,甚至人工審核,不排除此情況導致的原因。
解決辦法:同快照不更新,同時網站內部不要出現我國特色的河蟹內容。
三、首頁快照回檔。
問題分析:對網站進行改版或者空間不穩定;網站本身或者鏈接網站被K。
解決辦法:不要經常對網站主題或者各項設置參數進行變動,盡量選擇穩定快速的空間服務商,網站不要頻繁使用非常規推廣手段,網站內容盡量原創實時更新,不要大面積進行采集。
四、刪除快照。
解決辦法:http://www.baidu.com/search/web_tousu.html#網頁快照處理
P.S. 百度只保留文本內容,所以,那些圖片、音樂等非文本信息,快照頁面還是直接從原網頁調用。如果您無法連接原網頁,那么快照上的圖片等非文本內容,會無法顯示。當原網頁進行了修改、刪除或者屏蔽后,百度搜索引擎會根據技術安排自動修改、刪除或者屏蔽相應的網頁快照。
通過百度快照的觀測,可以確保網站正常的收錄排名,給站長和優化推廣人員一項參考指標。在實際操作過程中,不乏出現相關的其他問題,本文不再詳細講解,但是都可以圍繞搜索引擎運作的原理來尋找根本的原因和解決的辦法。
百度是SEO的神,它的一舉一動我們都要時刻注意,否則我們的網站就悲劇了,如果知道了它的搜索原理就好辦多了。