什么是搜索引擎及搜索引擎工作原理
編者按:本文由本站編輯 鐘麗 原創(chuàng),轉(zhuǎn)載請(qǐng)保留本頁鏈接。
我們平常用來搜索的百度就是中國最大的搜索引擎,其它還有雅虎、新浪等推出的搜索引擎,不過量小得多,一般只有百分之幾。那搜索引擎有沒有科學(xué)的定義呢。
一般說來,搜索引擎是指以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。
從使用者的角度看,搜索引擎提供一個(gè)包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。
也有人把互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行。網(wǎng)站分類目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡要描述,分類放置到不同目錄下。用戶查詢時(shí),通過一層層的點(diǎn)擊來查找自己想找的網(wǎng)站,這種基于目錄的檢索服務(wù)網(wǎng)站成為搜索引擎,但從嚴(yán)格意義上,它并不是搜索引擎。
搜索引擎必須具備抓取和處理網(wǎng)頁,提供檢索服務(wù)這三大功能。
抓取網(wǎng)頁一般稱為網(wǎng)絡(luò)機(jī)器人,其實(shí)是一個(gè)網(wǎng)頁抓取程序,英語叫spider。它是怎么工作的呢。
Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,從理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
抓取網(wǎng)頁后,還必須進(jìn)行處理,處理內(nèi)容包括四個(gè)方面,其中最重要的就是提取關(guān)鍵詞,建立索引文件,其次還得去除重復(fù)網(wǎng)頁、分析網(wǎng)頁中的超鏈接、計(jì)算網(wǎng)頁的重要度。
這一技術(shù)還在不斷發(fā)展中,這就是為什么大家有時(shí)假輸入的關(guān)鍵詞卻找不到想要的內(nèi)容,這就是收索引擎處理網(wǎng)頁時(shí)精度不高造成的。
處理網(wǎng)頁后,就是與我們直接相關(guān)的檢索服務(wù)了,我們輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;一般情況下為了用戶便于判斷,除提供網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段網(wǎng)頁摘要及其他信息。
相關(guān)作品:計(jì)算機(jī)之父──馮·諾依曼簡介