信息檢索中概念術(shù)語的提取方法探析論文

時間：2024-09-25 23:47:28 信息安全畢業(yè)論文我要投稿

相關(guān)推薦

　　隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，網(wǎng)絡(luò)信息越來越多，文本的數(shù)量也急劇增加，信息檢索技術(shù)的出現(xiàn)滿足了人們對需求信息的獲取和使用。網(wǎng)絡(luò)成為信息獲取的來源和渠道之一，然而，從這些海量的文本中獲取所需要的知識成為專家學(xué)者研究的熱點(diǎn)。目前大多數(shù)的搜素引擎采用關(guān)鍵詞匹配技術(shù)進(jìn)行檢索，現(xiàn)階段學(xué)者將更多的目光投向新型的檢索模式和方法，以改進(jìn)搜索效果。在信息檢索的經(jīng)典模式中，用來描述一篇文檔的一組具有代表性的關(guān)鍵詞叫做術(shù)語。對于一篇文檔而言，術(shù)語很可能包含了多個含義，而在不同的上下文中，術(shù)語的意義不同。一個術(shù)語或者詞組會有多種意義，一個領(lǐng)域的特定概念是明確的，因而，當(dāng)信息檢索中，采用領(lǐng)域概念描述文檔比術(shù)語更有意義。使用領(lǐng)域特定概念呈現(xiàn)在文檔中比檢索屬于特定領(lǐng)域文檔的術(shù)語更有用�？赏ㄟ^算法進(jìn)行文檔概念的抽取，利用這些描述文檔內(nèi)容的概念非傳統(tǒng)的詞條，詞頻進(jìn)行檢索，相對于傳統(tǒng)的檢索，減少了不少工作量，提高了檢索精度。

信息檢索中概念術(shù)語的提取方法探析論文

　　1相關(guān)研究

　　信息檢索也稱為信息查找或信息搜索，1965年，Rocchio研究了在向量空間模型中把信息查詢和術(shù)語重新加權(quán)相結(jié)合的經(jīng)典技術(shù)，并在隨后出版發(fā)行[1].Ide繼承了Rocchio的研究，并提出了術(shù)語重新加權(quán)公式的變形[2].1976年，Robertson和sparkJoneS提出了概率模型[3],有關(guān)該模型的詳細(xì)討論見van-Rijsbergen的著作[4].1981年Wu和salton使用相關(guān)反饋來給從相關(guān)文檔中提取出來的概念術(shù)語（用概率公式）重新加權(quán)，并用概念術(shù)語來檢索信息[5],實(shí)驗(yàn)表明了這些方法能夠提高檢索的性能。

　　實(shí)驗(yàn)證明，提取文檔的領(lǐng)域概念術(shù)語在信息檢索過程中能夠更加準(zhǔn)確和高效。因此采用概率加權(quán)方式提取領(lǐng)域概念術(shù)語，并將本體納入領(lǐng)域概念提取過程中，不僅解決了無詞典情況下的概念術(shù)語自動提取研究，并且有更高的準(zhǔn)確率。

　　2概念術(shù)語提取方法

　　概念的出現(xiàn)不是孤立存在。在一篇文檔中，如果概念有較高的權(quán)重，那么這篇文檔通常還會包含與概念相關(guān)的其他概念。如電至少有兩個不同的意義：電荷和電費(fèi)。如果在一篇文檔中討論電荷，那么這篇文檔通常會包含如電流、電力等術(shù)語。而對于電費(fèi)，文檔中通常包含如支付、額度等術(shù)語。因此，概念術(shù)語提取算法就是通過查看概念和與之相關(guān)的概念來計(jì)算這一概念權(quán)重值。

　　每一篇文檔都有一組術(shù)語和其對應(yīng)的頻率，將列表中的每一個術(shù)語映射到與之對應(yīng)的概念以及計(jì)算當(dāng)前文檔中每個概念的權(quán)重是研究重點(diǎn)，因此本體發(fā)揮很重要的作用，文檔中的術(shù)語都可以從本體中獲得其相關(guān)的概念組。一個術(shù)語可以映射到一個或者多個概念，如上文提到，電可以映射到電荷、電費(fèi)，本研究就是要從這些映射的概念中，找到最合適的特定領(lǐng)域的概念。

　　為了提取正確的概念，本研究涉及到相關(guān)概念。構(gòu)建了簡易的概念間關(guān)系網(wǎng)，這一概念關(guān)系網(wǎng)來自本體中的物理學(xué)領(lǐng)域的一部分概念圖，如果這個術(shù)語的相關(guān)概念在文檔中出現(xiàn)的次數(shù)越多，概念的權(quán)重就越高。該算法將文檔中的術(shù)語表和頻率作為輸入，然后返回一個概念列表以及概念的權(quán)重。

　　領(lǐng)域概念提取算法如下：在一篇文檔Γ的術(shù)語表里，ti表示每個術(shù)語，cij是從本體中獲得的相關(guān)概念。每個相關(guān)概念cij的權(quán)重就是cij·signfi-cance.cij·signficance最初作為術(shù)語ti的歸一化頻率，即ti·frequency.對于每個相關(guān)概念cij,該方法重在文檔中相關(guān)概念rcp的出現(xiàn)。然后，針對與概念rcp對應(yīng)的術(shù)語tp的產(chǎn)生，通過α歸一化術(shù)語的頻率來增量相關(guān)概念cij的權(quán)重。

　　signficance·cij=ti·frequency+α|tp·frequency.在這里，α就是相關(guān)概念的權(quán)重，在本實(shí)驗(yàn)中，將α=12.要獲得領(lǐng)域概念術(shù)語，因而該算法將選取權(quán)重值最大的概念作為領(lǐng)域概念。

　　算法3.1:概念的提取以及概念權(quán)重輸入：t1,t2,…，tn是文檔Γ的領(lǐng)域術(shù)語列表；ti·frequency領(lǐng)域術(shù)語ti的歸一化頻率；Γ文檔中標(biāo)記的總數(shù)。

　　輸出：c1,c2,…，cm概念列表和概念的權(quán)重ci·significance對領(lǐng)域術(shù)語ti歸一化頻率

　　3實(shí)驗(yàn)測試和分析

　　為了評價上文算法的性能，在搜索引擎（百度）中進(jìn)行不同的查詢并且收集了與查詢相對應(yīng)的前20篇文檔。觀察來檢測與物理領(lǐng)域相關(guān)的文檔并計(jì)算準(zhǔn)確度。評估該算法，實(shí)驗(yàn)以相同的20篇文檔作為輸入，用概念列表和概念權(quán)重從輸入的所有文檔中過濾出領(lǐng)域文檔。人為已經(jīng)過濾出屬于物理領(lǐng)域的文檔。每一篇文檔dj用概念向量c={c1,c2,…，cm}來表示。當(dāng)且僅當(dāng)概念ci的相關(guān)文檔出現(xiàn)在文檔中時，這個概念ci的權(quán)重值vi>0.對于查詢詞q,在物理領(lǐng)域，與之對應(yīng)的概念就是cq,如果在文檔中概念的權(quán)重值vq>0,那么這篇文檔dj就被選取出來。通過該算法返回的過濾輸出是人為進(jìn)行驗(yàn)證并且用準(zhǔn)確率和召回率評價該算法。

　　對于查詢C,集合C包含了由搜索引擎返回的前20篇文檔。從集合C中，人為標(biāo)記出與查詢C相關(guān)的文檔集合F,集合R就表示人為所選取出來的相關(guān)文檔，即標(biāo)準(zhǔn)文檔，|R|就是集合F中元素的數(shù)量；對集合C中的相同文檔進(jìn)行進(jìn)一步處理，其處理方式上面已經(jīng)討論過的使用領(lǐng)域文檔和權(quán)重值進(jìn)行過濾，過濾之后，生成一個個文檔，就是算法所選取出來的文檔，即機(jī)器文檔A,|A|就是機(jī)器文檔A中元素的數(shù)量。而且，|Ra|就是集合F和集合A的交集的文檔數(shù)量。

　　對于輸入的查詢，這里準(zhǔn)確率的計(jì)算是：運(yùn)用了概念提取算法過濾出的文檔中的相關(guān)文檔數(shù)量|Ra|除以算法過濾出的文檔數(shù)量|A|.對于輸入查詢，這里召回率的計(jì)算是：運(yùn)用了概念提取算法過濾出的文檔中的相關(guān)文檔數(shù)量|Ra|除以沒有運(yùn)用概念提取算法的20篇文檔中相關(guān)文檔數(shù)量|R|.

　　輸入查詢12次，分別統(tǒng)計(jì)了20篇文檔中相關(guān)文檔的數(shù)量|R|（未用概念提取算法）、過濾后的文檔數(shù)量|A|（概念提取方法）、過濾后的相關(guān)文檔數(shù)量|Ra|（概念提取方法），根據(jù)得到的統(tǒng)計(jì)結(jié)果分別計(jì)算準(zhǔn)確率（未用概念提取方法）、準(zhǔn)確率%（概念提取方法）、召回率%（概念提取方法）。通過計(jì)算出了的準(zhǔn)確率和召回率，未使用概念提取方法所得到的相關(guān)文檔的準(zhǔn)確率大部分在5%-40%之間，然而通過概念提取方法得到的準(zhǔn)確率達(dá)到100%占據(jù)70%,其余的在60%-80%之間，召回率達(dá)到100%占據(jù)70%,其余的在70%-90%之間。通過實(shí)驗(yàn)表明，采用概念和概念的權(quán)重值過濾領(lǐng)域文檔提高了信息檢索的準(zhǔn)確率。

　　結(jié)合本體的相關(guān)概念的領(lǐng)域概念術(shù)語自動提取方法，從實(shí)驗(yàn)中可以看出，利用本體獲得術(shù)語的相關(guān)概念減輕了無詞典帶來的壓力，并且該本體術(shù)語可以進(jìn)行擴(kuò)充，解決了領(lǐng)域概固定化等問題；采用相關(guān)概念提取領(lǐng)域概念，提高了準(zhǔn)確率。仍存在不足，一方面概念提取算法還存在過濾掉了低頻的概念，而對文檔而言較重要的概念，另一方面還存在冗余概念因此，今后研究中將會完善算法。

【信息檢索中概念術(shù)語的提取方法探析論文】相關(guān)文章：

自然語言檢索中的概念控制09-20

探析CBR在因特網(wǎng)教育資源檢索中的應(yīng)用09-25

信息檢索中的查詢擴(kuò)展技術(shù)09-02

循證醫(yī)學(xué)思維引入網(wǎng)絡(luò)信息檢索教學(xué)中的思考論文10-24

基于地理位置的社交網(wǎng)絡(luò)信息應(yīng)用方法探析論文06-30

探析互動教學(xué)方法在音樂教學(xué)活動中的運(yùn)用的論文09-12

論文：淺談生活中的數(shù)學(xué)概念09-19

探析孟子的論辯方法論文06-17

小學(xué)數(shù)學(xué)中幾何圖形的概念教學(xué)探析06-17

探析概念隱喻理論在英語教學(xué)中的運(yùn)用10-15

久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

信息檢索中概念術(shù)語的提取方法探析論文