搜索引擎如何理解文件:論文件分析和語義聯系
添加時間:2013/9/17 10:43:14 編輯:奇億網站建設公司
在文件分析(document analysis)中,搜索引擎查看搜索詞是否出現在文件的重要區域——標題、元標簽、H標簽和頁面文字。搜索引擎也根據文件分析和其他因素嘗試自動衡量文件的質量。對如今的搜索引擎來說,僅僅依靠文件分析是不夠的,所以它們也要考慮語義聯系。
語義聯系(semantic connectivity)指的是通常相互關聯的詞或詞組。例如,當你看到al。ha,就會把它和夏威夷聯系起來,而不是佛羅里達。搜索引擎構建自己的同義詞庫和字典,幫助確定某些詞或話題之間有什么樣的關系。
搜索引擎可以掃描它們的網上內容數據庫,使用模糊集合理論和某些方程式將詞語聯系起來,開始像人類一樣理解頁面及網站。專業SEO人員不一定需要使用語義聯系測量工具來優化網站,不過更高級的SEO人員會盡力充分利用每一個因素。
語義聯系測量對下面這些方面有幫助:
1、衡量選擇什么詞組作為目標關鍵詞。
2、衡量有關某個話題的頁面上應該包括什么關鍵詞組。
3、衡量其他高排名網站或網頁上的文字之間的關系。
4、尋找能提供相關主題鏈接的頁面。
這些資料技術性太強了,SEO人員只需要了解獲得有價值的信息的原則。要知道,雖然IR領域有成百上千個技術用語,其中很多難以理解,不過就算是SEO新手也可以區分和理解這些術語。
IR模型(搜索引擎)使用模糊集合理論(Lotfi Zadeh博士于1969年創建的模糊邏輯分支)來發現兩個詞之間的語義關系。IR系統并非使用同義詞典或字典來找出兩個詞之間是否有關系,而是使用自己的海量內容數據庫來推測出詞之間的關系。
這個過程雖然聽起來復雜,但原理很簡單。搜索引擎需要依靠機器邏輯(對/錯、是/非等)判斷,機器邏輯相對人類有它的優勢,但機器邏輯不能像人類一樣思考。對人類來說很直觀的事情,對計算機來說可能非常難以理解。
例如橘子和香蕉都是水果,但橘子和香蕉并不都是圓的。對人來說這是很直觀的事情。機器要理解這一點以及其他與此類似的概念,語義聯系是關鍵。網上大量的人類知識可以被收錄進索引庫,并且從中分析出人類已經建立起來的聯系。
所以機器掃描索引庫中“香蕉”和“橘子”這兩個詞出現的地方,注意到“圓形”和“香蕉”很少同時出現,而“橘子’’和“圓形”經常同時出現,機器就知道橘子是圓的,而香蕉不是圓的。
這就是模糊邏輯發揮作用的地方。只要分析詞語以何種頻率一起出現,在什么情況下一起出現,模糊集合理論就可以幫助計算機理解詞語之間是怎樣相關的。一個在此基礎上有所擴展的相關概念是潛在語義分析(LSA,Latent Semantic Analysis)。
通過研究億萬網頁的海量索引,搜索引擎可以“學習”哪些詞之間有聯系,哪些概念之間有聯系。例如,運用LSA,搜索引擎能夠分辨前往ZOO(動物園)的trips(旅途)活動,經常包括viewing wildlife(觀看野生生物)和animals(動物),可能是一次tour(旅行)的一部分。
現在在Google搜索一下“-zoo~trips”,注意,返回結果中加黑體的詞與上一段中的英文單詞相匹配。Google將相關詞顯示為黑體,并且能夠辨認出哪些詞在它們的索引庫中經常同時出現(連在一起,在同一頁或比較靠近的位置)。
某些形式的LSA計算成本太高。現在的搜索引擎還不能像麻省理工學院的最新型學習計算機那樣聰明地學習。例如,搜索引擎無法從它們的索引庫中學到,斑馬和老虎都是帶條紋的動物,雖然它們能意識到“條紋”和“斑馬”比“條紋”和“鴨子”更有語義關系。
潛在語義索引(LSI,Latent Semantic Indexing)將語義分析更進一步,可以分辨相關聯的網頁。例如搜索引擎可能注意到一個頁面是關于doctor的,另一個頁面是關于physician的,根據這兩個頁面上經常共同出現的其他詞,搜索引擎認定這兩個頁面有一定關系。
所以,搜索physician時,談論doctor的頁面也可能出現。搜索引擎公司在這些技術上投資已經很多年了。例如,2003年4月Google收購了Applied Semantics,這是一個以其語義文字處理技術聞名的公司。
這個技術現在用于Google AdSense的廣告系統中,也很有可能在核心搜索算法中使用。這些應用使我們認識到搜索引擎怎樣分辨網上詞匯、詞組以及概念之間的聯系。隨著語義聯系成為搜索引擎算法越來越重要的部分,可以預期,頁面、網站和鏈接的主題將會越來越受重視。
未來搜索引擎將更有能力理解概念和主題,分辨哪些內容、鏈接、頁面與整個網站的主題不太吻合。