被邀請(qǐng)回答這個(gè)問(wèn)題,但是似乎問(wèn)錯(cuò)人了,問(wèn)的是開源的搜索引擎,但是很抱歉,我對(duì)此領(lǐng)域并不熟悉。
創(chuàng)新互聯(lián)公司2013年開創(chuàng)至今,先為青山等服務(wù)建站,青山等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為青山企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。
我所知道的搜索引擎方案僅有:
1. Nutch ()
2. Datapark search
以下列表不是一個(gè)完整的搜索引擎方案,一般都不包括爬蟲,確切的說(shuō)是IR或者全文檢索引擎更為恰當(dāng):
1. Zettair
2. Indri
3. Terrier ?
4. Galago
5. Zebra
6. Lucene 及其變種
Lucene
Solr
Elasticsearch ?
7. Sphinx
8. Xiapian
實(shí)現(xiàn)方式有多種,建議方式一:
1. 在頁(yè)面制作好輸入框input,并且定義動(dòng)作為打開一個(gè)幀iframe;
2. 在幀里,執(zhí)行動(dòng)作為百度的鏈接。意思也就是百度執(zhí)行的結(jié)果在我自己的iframe里打開
java的開源的免費(fèi)全文檢索工具Lucene
Lucene不是一個(gè)完整的全文索引應(yīng)用,而是是一個(gè)用Java寫的全文索引引擎工具包,它可以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引/檢索功能。
Lucene的作者:Lucene的貢獻(xiàn)者Doug Cutting是一位資深全文索引/檢索專家,曾經(jīng)是V-Twin搜索引擎(Apple的Copland操作系統(tǒng)的成就之一)的主要開發(fā)者,后在Excite擔(dān)任高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師,目前從事于一些INTERNET底層架構(gòu)的研究。他貢獻(xiàn)出的Lucene的目標(biāo)是為各種中小型應(yīng)用程序加入全文檢索功能。
Lucene的發(fā)展歷程:早先發(fā)布在作者自己的,后來(lái)發(fā)布在SourceForge,2001年年底成為APACHE基金會(huì)jakarta的一個(gè)子項(xiàng)目:
已經(jīng)有很多Java項(xiàng)目都使用了Lucene作為其后臺(tái)的全文索引引擎,比較著名的有:
Jive:WEB論壇系統(tǒng);
Eyebrows:郵件列表HTML歸檔/瀏覽/查詢系統(tǒng),本文的主要參考文檔“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系統(tǒng)的主要開發(fā)者之一,而EyeBrows已經(jīng)成為目前APACHE項(xiàng)目的主要郵件列表歸檔系統(tǒng)。
Cocoon:基于XML的web發(fā)布框架,全文檢索部分使用了Lucene
Eclipse:基于Java的開放開發(fā)平臺(tái),幫助部分的全文索引使用了Lucene
對(duì)于中文用戶來(lái)說(shuō),最關(guān)心的問(wèn)題是其是否支持中文的全文檢索。但通過(guò)后面對(duì)于Lucene的結(jié)構(gòu)的介紹,你會(huì)了解到由于Lucene良好架構(gòu)設(shè)計(jì),對(duì)中文的支持只需對(duì)其語(yǔ)言詞法分析接口進(jìn)行擴(kuò)展就能實(shí)現(xiàn)對(duì)中文檢索的支持。
一、什么叫搜索引擎?
在Internet上有上百億可用的公共Web頁(yè)面,即使是最狂熱的沖浪者也不會(huì)訪問(wèn)到所有的頁(yè)面,而只能看到其中的一小部分,更不會(huì)在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當(dāng)然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過(guò)白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關(guān)鍵詞)等等。
本文的目的就是讓眾多的頁(yè)面設(shè)計(jì)者在了解搜索引擎的基礎(chǔ)上,尋求如何使自己的頁(yè)面在搜索引擎索返回的列表中獲得好的排列層次的方法。
"搜索引擎"這個(gè)術(shù)語(yǔ)一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實(shí)他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。
1、目錄
目錄(比如Yahoo!)返回的列表是由人工來(lái)編排的。
這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄一些摘要信息,對(duì)該網(wǎng)站進(jìn)行概述性介紹(摘要可能是你提交過(guò)去的,也可以是引擎站點(diǎn)的編輯為你的站點(diǎn)所做的評(píng)價(jià))。人們搜索時(shí)就按相應(yīng)類別的目錄查詢下去。
這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個(gè)文字輸入框和一個(gè)按鈕。我們可以在文字框中輸入要查找的字、詞或短語(yǔ),再點(diǎn)擊按鈕,便會(huì)在目錄中查找相關(guān)的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過(guò)來(lái)。目前國(guó)內(nèi)Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自動(dòng)創(chuàng)建列表的。
搜索引擎看起來(lái)與目錄的網(wǎng)站查詢非常相似,也提供一個(gè)文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。
目錄的資料庫(kù)中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫(kù)中,搜集保存的則是各網(wǎng)站的每一個(gè)網(wǎng)頁(yè)的全部?jī)?nèi)容,范圍要大得多。
搜索引擎是以全文檢索的方式工作的。全文檢索查到的結(jié)果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關(guān)鍵詞相關(guān)的一個(gè)個(gè)網(wǎng)頁(yè)的地址和一小段文字。在這段文字中,可能沒(méi)有你輸入的那個(gè)關(guān)鍵詞,它只是某一網(wǎng)頁(yè)的第一段話,甚至是一段無(wú)法看懂的標(biāo)記,但在這個(gè)網(wǎng)頁(yè)中,一定有你所輸入的那個(gè)關(guān)鍵詞,或者相關(guān)的詞匯。打個(gè)比方說(shuō),網(wǎng)站查詢可以查到網(wǎng)上有哪些報(bào)紙,如《文匯報(bào)》、《大公報(bào)》,而全文檢索則可以查到網(wǎng)上這些報(bào)紙的每一篇文章中的詞匯。
3、兩者相結(jié)合的搜索引擎
某些搜索引擎同時(shí)也提供目錄。包含在搜索引擎中的目錄通常質(zhì)量比較高,也能從那里找到許多好站點(diǎn)。因?yàn)榧词鼓惆涯愕恼军c(diǎn)提交過(guò)去,也并不能保證一定被加到目錄中去,他們把注意力放在那些已經(jīng)在別的目錄中存在的站點(diǎn)上,并有選擇地尋找有吸引力的加到自己的目錄中。
搜索引擎和目錄各有各自不可替代的功用。目錄比較簡(jiǎn)單,要想獲得一個(gè)好的排列層次,除了你努力創(chuàng)建一個(gè)好內(nèi)容的高品質(zhì)站點(diǎn)外別無(wú)他法。搜索引擎復(fù)雜得多,它們隨時(shí)都在自動(dòng)地索引眾多WEB站點(diǎn)的最新網(wǎng)頁(yè),所以常常會(huì)發(fā)現(xiàn)目錄所不能得到的信息。如果你改動(dòng)了你的頁(yè)面,搜索引擎還隨時(shí)會(huì)發(fā)現(xiàn)這個(gè)變化,并重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
搜索引擎(search engines)是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?/p>
搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。
早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來(lái),由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。隨著因特網(wǎng)信息按幾何式增長(zhǎng),出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁(yè)的開始,隨后搜索因特網(wǎng)上的所有超級(jí)鏈接,把代表超級(jí)鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫(kù)。這就是現(xiàn)在搜索引擎的原型。
隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁(yè)的信息了,它們已經(jīng)變得更加綜合化,完美化了。以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說(shuō)明了搜索引擎的發(fā)展從單一到綜合的過(guò)程。
然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來(lái)越不滿意。例如,搜索“電腦”這個(gè)詞匯,就可能有數(shù)百萬(wàn)頁(yè)的結(jié)果。這是由于搜索引擎通過(guò)對(duì)網(wǎng)站的相關(guān)性來(lái)優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、 標(biāo)簽等公式來(lái)決定的。這就是使搜索引擎搜索結(jié)果多而雜的原因。而搜索引擎中的數(shù)據(jù)庫(kù)因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。
怎樣才能使搜索引擎精確地為人們提供相關(guān)的信息應(yīng)該是它以后發(fā)展的方向,而不是只求綜合服務(wù)。
搜索引擎指自動(dòng)從英特網(wǎng)搜集信息,經(jīng)過(guò)一定整理以后,提供給用戶進(jìn)行查詢的系統(tǒng)。英特網(wǎng)上的信息浩瀚萬(wàn)千,而且毫無(wú)秩序,所有的信息象汪洋上的一個(gè)個(gè)小島,網(wǎng)頁(yè)鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為你繪制一幅一目了然的信息地圖,供你隨時(shí)查閱。
搜索引擎的工作原理
搜索引擎的工作原理大致可以分為:
1、搜集信息:搜索引擎的信息搜集基本都是自動(dòng)的。搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider)的自動(dòng)搜索機(jī)器人程序來(lái)連上每一個(gè)網(wǎng)頁(yè)上的超連結(jié)。機(jī)器人程序根據(jù)網(wǎng)頁(yè)鏈到其他中的超鏈接,就象日常生活中所說(shuō)的“一傳十,十傳百……”一樣,從少數(shù)幾個(gè)網(wǎng)頁(yè)開始,連到數(shù)據(jù)庫(kù)上所有到其他網(wǎng)頁(yè)的鏈接。理論上,若網(wǎng)頁(yè)上有適當(dāng)?shù)某B結(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁(yè)。
2、整理信息:搜索引擎整理信息的過(guò)程稱為“建立索引”。搜索引擎不僅要保存搜集起來(lái)的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫(kù)中,那么它每次找資料都得把整個(gè)資料庫(kù)完全翻查一遍,如此一來(lái)再快的計(jì)算機(jī)系統(tǒng)也沒(méi)有用。
3、接受查詢:用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時(shí)每刻都要接到來(lái)自大量用戶的幾乎是同時(shí)發(fā)出的查詢,它按照每個(gè)用戶的要求檢查自己的索引,在極短時(shí)間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁(yè)鏈接的形式提供的,這些通過(guò)這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁(yè)。通常搜索引擎會(huì)在這些鏈接下提供一小段來(lái)自這些網(wǎng)頁(yè)的摘要信息以幫助用戶判斷此網(wǎng)頁(yè)是否含有自己需要的內(nèi)容。
.
看的有些模糊,不過(guò)既然是java搜索引擎,用lucene去做比較簡(jiǎn)單,還是說(shuō)你想自己寫搜索引擎?
網(wǎng)頁(yè)題目:java設(shè)計(jì)搜索引擎代碼 基于java的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
網(wǎng)站地址:http://aaarwkj.com/article16/doodpdg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、營(yíng)銷型網(wǎng)站建設(shè)、軟件開發(fā)、企業(yè)建站、靜態(tài)網(wǎng)站、網(wǎng)站營(yíng)銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)