什么是搜索引擎?搜索引擎的歷史
概括地說,搜索引擎的工作方式是抓取網(wǎng)站制作頁面、處理網(wǎng)頁和提供檢索服務.每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(Spider) , Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍,理論上講,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關(guān)鍵詞(Keywords),建立索引文件,其他的還包括去除重復網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要度等。用戶輸人關(guān)鍵詞進行檢索時,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁。為了便于用戶判斷,除了網(wǎng)頁標題和網(wǎng)址(URL)外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。
1.搜索引單的歷史
所有搜索引擎的祖先都是Archie,它是1990年由加拿大麥吉爾大學的學生Alan Emtage,Peter Deutsch和Bill Wheelan發(fā)明的。雖然當時www還未廣泛應用,但網(wǎng)絡中的文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,Alan Emtage等人就想開發(fā)一個可以用文件名查找文件的系統(tǒng),于是便有了Archie,Archie是一個可搜索的FTP文件名列表,用戶必須輸人精確的文件名進行搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件。因此,Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。由于Archie深受歡迎,受
其啟發(fā),美國內(nèi)華達大學的研究人員于1993年開發(fā)了一個Gopher(Gopher FAQ)搜索工具Veronica( Veronica FAQ). J ughead是后來的另一個Gopher搜索工具。
搜索引擎一般由爬行器(Spider,機器人/蜘蛛)、索引生成器和查詢檢索器三部分組成。專門用于檢索信息的“機器人”程序像蜘蛛一樣在網(wǎng)絡間爬來爬去,因此搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。
世界上第一個Spider程序是麻省理工學院的Matthew Gray開發(fā)的World Wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)的發(fā)展規(guī)模.起初它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量,后來則發(fā)展成為也能夠捕獲URL。
1994年7月,美國卡內(nèi)基·梅隆大學的Michael Mauldin將John Leavitt的蜘蛛程序接人到其索引程序中,創(chuàng)建了Lycos。同年4月,美國斯坦福大學的博士生David Filo和美籍華人楊致遠(Jerry Yang)共同創(chuàng)辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深人人心。從此搜索引擎進人了高速發(fā)展時期。目前,互聯(lián)網(wǎng)上有名字的搜索引擎已達數(shù)百個,其檢索的信息量也與從前不可同日而語.以Google為例,其數(shù)據(jù)庫中存放的網(wǎng)頁已達30億之巨!
2.幾個搜索引攀簡介
下面簡要介紹幾個常用的搜索引擎。
(1)Google
Google搜索引擎的界面如圖6-18所示。Google原來只是斯坦福大學的一個小項目BackRub. 1995年博士生Larry Page開始學習搜索引擎設計,并于1997年9月15日注冊T google. com域名。1997年底,在Sergey Brin,Scott Hassan和Alan Steremberg的共同參與下,BachRub開始提供Google的演示版。1999年2月,Google完成T從Alpha版到Beta版的蛻變。
Google在Page rank、動態(tài)摘要、網(wǎng)頁快照、Daily refresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,持久地改變了搜索引擎的定義.2006年新版的《韋氏大學辭典》中收錄了100多個新詞。在這本一向以保守、嚴肅著稱的辭典中,收錄了互聯(lián)網(wǎng)搜索引擎Google,意思是“在互聯(lián)網(wǎng)上迅速地查找信息”。
(2)百度
目前,百度(www. baidu. com)是全球最大的中文搜索引擎,其界面如圖6-19所示.2000年1月,前Infoseek資深工程師李彥宏與好友徐勇(加州大學伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2000年5月,百度開始為門戶網(wǎng)站(如搜狐、新浪等)提供搜索技術(shù)服務,之后發(fā)布Baidu. com搜索引擎Beta版,開始獨立提供搜索服務。
(3) Alltheweb
誕生于1999年5月的Alltheweb是一個優(yōu)秀的全文搜索引擎,除了搜索常規(guī)網(wǎng)頁外,也能搜索新聞、圖片、視頻、音頻等內(nèi)容,其目標是做世界上最大、最快的搜索引擎,其界面如圖6-20所示。
(4) Ask. Com
Ask. Com是以提問方式進行搜索的搜索引擎,用戶可以輸人一個問題,搜索得到想要的答案,其界面如圖6-21所示.
3.搜索引的分類
搜索引擎常分為全文索引引擎、目錄索引和元搜索引擎三類。
(1)全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外的代表有Google,國內(nèi)則有百度。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。
根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序,即“蜘蛛”程序或“機器人”程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自建的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
(2)目錄索引
顧名思義,目錄索引就是將網(wǎng)站分門別類地存放在相應的目錄(Directory)中,因此用戶在查詢信息時,可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找.如果以關(guān)鍵詞搜索,則返回的結(jié)果與全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站(其中的人為因素要多一些)。
如果按分層目錄查找,某一目錄中網(wǎng)站的排名則由標題字母的先后順序決定(也有例外)。
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,全文搜索引擎屬于自動網(wǎng)站檢索,而目錄索引的建立則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽用戶的網(wǎng)站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納用戶的網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功.而目錄索引對網(wǎng)站的要求則要高得多,有時即使登錄多次也不一定能成功。此外,在登錄搜索引擎時,人們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄中。最后,全文搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為用戶提交的網(wǎng)站目錄、網(wǎng)站信息不合適。他可以隨時對其進行調(diào)整,當然事先是不會和用戶商量的。目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo!這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍。
(3)元搜索引擎
元搜索引擎(Meta Search Engine)接收用戶的查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace,Dogpile, Vivisim。等,中文元搜索引擎的典型代表是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo,目前搜索引擎正處于高速發(fā)展的階段,各主要大型搜索引擎都是基于分布式計算的。
簡單地說,分布式系統(tǒng)就是由多臺服務器共同協(xié)作組成的系統(tǒng),從而能夠檢索海量信息。以Google為例,它由上萬臺服務器組成,以提供較好的檢索性和抗壓性.抗壓性是指在一個幾秒鐘的時間段內(nèi),服務器處理大量并發(fā)請求的能力。
現(xiàn)在搜索引擎技術(shù)的主要發(fā)展空間在搜索的準確度上,除了傳統(tǒng)的網(wǎng)頁排序算法(指對搜索結(jié)果進行排序的規(guī)則),如Page rank, Hill top等,也與自然語言的研究進展密切相關(guān)。
建站流程
-
網(wǎng)站需求
-
網(wǎng)站策劃方案
-
頁面設計風格
-
確認交付使用
-
資料錄入優(yōu)化
-
程序設計開發(fā)
-
后續(xù)跟蹤服務
-
聯(lián)系電話
010-60259772
熱門標簽
- 網(wǎng)站建設
- 食品網(wǎng)站建設
- 微信小程序開發(fā)
- 小程序開發(fā)
- 無錫網(wǎng)站建設
- 研究所網(wǎng)站建設
- 沈陽網(wǎng)站建設
- 廊坊網(wǎng)站建設
- 鄭州網(wǎng)站建設
- 婚紗攝影網(wǎng)站建設
- 手機端網(wǎng)站建設
- 高校網(wǎng)站制作
- 天津網(wǎng)站建設
- 教育網(wǎng)站建設
- 品牌網(wǎng)站建設
- 政府網(wǎng)站建設
- 北京網(wǎng)站建設
- 網(wǎng)站設計
- 網(wǎng)站制作
最新文章
推薦新聞
更多行業(yè)-
尚品中國高端網(wǎng)站建設 | 原創(chuàng)之美專屬定制化服務
在數(shù)字時代的浪潮中,網(wǎng)站已然成為企業(yè)發(fā)展的重要窗口,而尚品中國高端網(wǎng)站...
2023-12-20 -
網(wǎng)絡信息資源檢索
信息檢索最初起派于紙質(zhì)圖書悄報的檢索.隨著計算機技術(shù)廣泛應用于信息檢索...
2014-07-07 -
企業(yè)網(wǎng)站搭建需要注意什么?
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的企業(yè)開始意識到一個好的企業(yè)網(wǎng)站的重要性...
2023-04-17 -
探討企業(yè)網(wǎng)站建設的發(fā)展趨勢
眾所周知,一切事物都是隨著時間的推移而不斷變化的?;ㄩ_花落,草枯萎,四...
2021-05-26 -
網(wǎng)站建設的最新趨勢和技術(shù)
首先,響應式設計已成為主流。隨著移動互聯(lián)網(wǎng)的普及,越來越多的用戶通過手...
2024-07-26 -
北京企業(yè)網(wǎng)站建設的三個“核心點”
1.企業(yè)網(wǎng)站的建設不應基于客戶的意見。即使網(wǎng)站建設是一個服務行業(yè),也不...
2020-06-29
預約專業(yè)咨詢顧問溝通!
免責聲明
非常感謝您訪問我們的網(wǎng)站。在您使用本網(wǎng)站之前,請您仔細閱讀本聲明的所有條款。
1、本站部分內(nèi)容來源自網(wǎng)絡,涉及到的部分文章和圖片版權(quán)屬于原作者,本站轉(zhuǎn)載僅供大家學習和交流,切勿用于任何商業(yè)活動。
2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。
3、本聲明未涉及的問題參見國家有關(guān)法律法規(guī),當本聲明與國家法律法規(guī)沖突時,以國家法律法規(guī)為準。
4、如果侵害了您的合法權(quán)益,請您及時與我們,我們會在第一時間刪除相關(guān)內(nèi)容!
聯(lián)系方式:010-60259772
電子郵件:394588593@qq.com