欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

盲反饋檢索系統(tǒng)實驗記錄一-創(chuàng)新互聯(lián)

在進行實驗之前,先了解相關(guān)反饋和盲反饋的一些概念:

紅橋ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!

相關(guān)反饋是基于用戶的,由用戶標出初次查詢結(jié)果相關(guān)還是不相關(guān),再經(jīng)過Rocchio算法或其他算法使檢索結(jié)果更能滿足用戶需求;

盲反饋也稱偽反饋,是由計算機自動處理檢索結(jié)果,不需要用戶的參與也可以得到比較滿意的檢索效果。這種方法假定用戶初始檢索結(jié)果的前k篇文檔是相關(guān)的,再由系統(tǒng)抽選出這k篇文檔的特征詞,然后把這些特征詞和初始查詢詞再放入搜索框中進行二次檢索,這種行為我們稱之為“擴展查詢詞”。通過擴展查詢詞可以提高檢索系統(tǒng)的性能。

 本項目就是基于盲反饋理論以及結(jié)合相應(yīng)算法編寫一個檢索系統(tǒng),并通過一系列的評價指標來測試此系統(tǒng)的性能。本系統(tǒng)是經(jīng)過小組成員結(jié)合相關(guān)理論后而確定實施的,本文從項目最初代碼的編寫,直到一個檢索系統(tǒng)的成功運行,以及涉及到的信息檢索的理論,筆者都會一一講解。

編程環(huán)境的準備:PHP+MySQL+Apache(項目初期沒有使用MySQL,隨著后期數(shù)據(jù)集的增大,可以考慮)

額外知識:HTML+CSS+JS+Ajax(主要用于前臺的顯示)

語料庫:本實驗使用搜狗實驗室提供的語料庫http://www.sogou.com/labs/dl/c.html

    在測試時筆者使用的是mini版的10篇IT新聞(文件目錄名問C000010)

在代碼編寫過程中,筆者先使用過程化的方法,然后再把各個功能封裝到Tool.class.php的工具類中,便于以后代碼重用。

首先,建立自己的詞表。

筆者是這樣考慮的,假如有三篇文檔,文檔內(nèi)容為:

(html html)

(java html java)

(python java)

先對這三遍文檔去重,

(html)

(java html)

(python java)

然后合并這三篇文檔:

(html java html python java)

然后再對其去重,并且按字母升序排列:

(html java python)

這樣就可以得到我們自己的詞典了。

那為什么我們不直接把最初的三篇文檔先合并再去重,這樣不就可以省去對三篇文檔分別去重這一步了嗎?事實上我們也是這樣做的,上面是為了便于我們理解我們的文檔頻率df是怎么計算出來的,由紅色字體部分我們可以知道,有多少個重復(fù)的詞,這個詞的的文檔頻率就是多少。比如html的df為2,java的為2,python為1.

在中文分詞系統(tǒng)中,我們采用的是分詞工具SCWS,使用PHP調(diào)用他提供的方法get_tops可以得到分詞的情況,在內(nèi)部他已經(jīng)幫我們對每篇文檔去了重,并且計算出了每個詞的出現(xiàn)的次數(shù)times。

我們先來了解一下初始配置文件init.inc.php

<?php define('TEXT_PATH','D:\AppServ\www\BlindFeedback\SogouC.mini.20061127\SogouC.mini\Sample\C000010'); define('ROOT_PATH',dirname(__FILE__)); require_once 'func.inc.php'; require_once 'Tool.class.php'; ?>

此文件定義了兩個常量,TEXT_PATH是保存搜狗實驗室的10篇IT新聞的硬路徑,ROOT_PATH是系統(tǒng)存儲位置的硬路徑;然后是require引入的兩個文件,func.inc.php用來存放使用到的函數(shù),以后會講到;Tool.class.php存放系統(tǒng)主要的功能,隨著功能的增多,可能會再創(chuàng)建一個類。以后需要用到的配置都存放到這個文件中。

在Tool.class.php文件中我們定義了一個靜態(tài)方法,用來獲得并存儲詞表:

class Tool{ //獲取并存儲詞表 static public function dic($seg){ $dic=array(); //詞表 for($i=0;$i<count($seg);$i++){ for($j=0;$j<count($seg[$i]);$j++){ array_push($dic,$seg[$i][$j]['word']); } } $dic=array_unique($dic); sort($dic); $dic=implode(',',$dic); //把詞表存儲起來 $fp=fopen('dic.txt','w'); if(!$fp) exit('詞典打開失敗!'); if(!fwrite($fp,$dic)) exit('詞典寫入失敗!'); fclose($fp); } ?>

這個方法需要傳遞一個參數(shù),這個參數(shù)是由Tool.class.php里定義的一個分詞方法segment得來的,稍后會講到。變量$seg是一個三維數(shù)組,$seg[i][j][]表示第i篇文檔的第j個詞。通過兩個for循環(huán),把該詞壓入數(shù)組$dic中(array_push方法可以壓入具有相同值的元素),然后array_unique對$dic去重,再按中文拼音字母升序排列,一個數(shù)組形式的詞表產(chǎn)生了。為了把該詞表存入文件名為dic的txt文件中,需要使用imploded方法把數(shù)組通過“,”連接成字符串,然后在使用文件方法fopen把詞表存入dic.txt.

上面提到的segment分詞方法代碼如下:

//scws分詞 static function segment($str){ if(!$scws=scws_new()) exit('創(chuàng)建SCWS對象失敗!'); //創(chuàng)建SCWS $scws->set_charset('gbk'); //設(shè)置字符集 if(!$scws->set_dict('C:\Program Files\scws\dict.xdb')) exit('詞典路徑設(shè)置失??!'); $scws->set_multi(1); $scws->set_ignore(true); //忽略標點 if(is_string($str)){ $scws->send_text($str); $top=$scws->get_tops(800); }else if(is_array($str)){ for($i=0;$i<count($str);$i++){ $scws->send_text($str[$i]['con']); $top[]=$scws->get_tops(800); } } return $top; }

該方法需要傳第一個參數(shù)該參數(shù)可以說字符串,也可以是包含內(nèi)容的數(shù)組??梢允褂孟旅娼榻B的fileStr方法獲取10篇IT新聞的內(nèi)容并把它們存入數(shù)組中。segment方法內(nèi)部都是調(diào)用SCWS提供的分詞方法,如需詳細了解可以到SCWS官網(wǎng)查看文檔(該項目開源)。筆者只介紹get_tops方法,該方法返回的是最終的分詞結(jié)果:

盲反饋檢索系統(tǒng)實驗記錄一

盲反饋檢索系統(tǒng)實驗記錄一

由于詞的數(shù)量太多,以后實驗效果截圖只截取前面和最后的部分??梢钥吹絞et_tops的返回結(jié)果是一個三維數(shù)組[word]表示所截取的詞,[times]表示詞頻,[weight]表示權(quán)重(不是我們所了解的tf*idf),[attr]表示詞性。get_tops方法已經(jīng)為我們除去了大部分無意義的詞。與get_tops相對應(yīng)的是get_result,它返回的是所有分好的詞,包括停用詞、標點符號等。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

本文名稱:盲反饋檢索系統(tǒng)實驗記錄一-創(chuàng)新互聯(lián)
鏈接地址:http://aaarwkj.com/article32/csoesc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站商城網(wǎng)站、搜索引擎優(yōu)化網(wǎng)頁設(shè)計公司、小程序開發(fā)、手機網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)
国产情侣最新地址在线| 麻豆一区二区人妻网站| 日韩欧美在线观看一区二区| 日韩一区二区电影在线| 韩国三级在线视频网站| 日本加勒比一本在线观看| 99久久这里只有精品视频| 日本少妇一区二区99| 亚洲国产日韩精品久久| 国产精品一区二区一牛影视| 欧美一区二区三区爽| 九九热视频在线观看色| 肥胖老熟女一区二区三区| 亚洲香蕉视频在线播放| 欧美日韩久久久久久精品| 日韩中文字幕专区在线| 精品视频日韩在线观看| 99精品国产麻豆一区二区三区| 手机黄色av免费在线网址| 欧美黄色一区在线观看| 一二区中文字幕在线观看| 久亚洲精品色婷婷国产熟女| 加勒比在线观看欧美一区| 精品女同一区二区三区网站 | 午夜18禁毛片免费看| 精品一区二区人妻乱交| 国产亚洲av综合人人精品| 高清偷自拍亚洲精品三区| 日本精品av一区二区| 亚洲成人日韩成人av| 国产91黑丝在线播放| 欧美日韩久久久久久精品| 亚洲午夜经典一区二区日韩| 日韩国产精品亚洲欧美在线| 99久久伊人精品综合观看| 亚洲欧洲一区二区中文字幕| 中文字幕乱码日韩一二三区| 国产精品久久久毛片av| 男人午夜福利视频在线观看| 欧美精品色精品免费观看| 亚洲国产日韩伦中文字幕|