產(chǎn)品分類
最新文章
- 一種可手動(dòng)調(diào)節(jié)的氣閥的制作方法
- 包含聚丁烯的口香糖和糖果的制作方法
- 無(wú)滲漏一次性灌腸袋的制作方法
- 逍遙丸在治療口腔潰瘍藥物中的應(yīng)用的制作方法
- 醒酒伴侶茶的制作方法
- 一種具有加熱功能的儲(chǔ)藥器的制造方法
- 內(nèi)科護(hù)理用病床的制作方法
- 羅哌卡因在具有最小運(yùn)動(dòng)神經(jīng)阻斷的止痛作用的藥物制造中的應(yīng)用的制作方法
- 叢枝菌根真菌孢子的表面消毒方法
- 提純生物組合物的方法
- 隱形眼鏡溶液的防腐劑系統(tǒng)的制作方法
- 磷酸川芎嗪軟膠囊及其制備方法
- 新型癱瘓病人護(hù)理床的制作方法
- 丹參有效部位和復(fù)方丹參粉針劑及制備方法與醫(yī)藥用途的制作方法
- 一種參茸保健酒及其制備方法
- 一種軟包裝安瓿的制作方法
- 子宮內(nèi)裝置、其生產(chǎn)方法以及將活性因子置于子宮腔內(nèi)的方法
- 利用熱滯后蛋白改良低溫外科中的組織破壞的制作方法
- 一種治療銀屑病及神經(jīng)性皮炎的中草藥丸的制作方法
- 一種解酒保肝口服液的制作方法
檢索式生成裝置、檢索系統(tǒng)、檢索式生成方法
專利名稱:檢索式生成裝置、檢索系統(tǒng)、檢索式生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種生成用于檢索文件的檢索條件式(search formula)的技術(shù)。
背景技術(shù):
文件檢索主要有兩種方法。第I種方法是輸入將關(guān)鍵字(任意的字符串)的有無(wú)進(jìn)行了組合的邏輯式,只將該邏輯式為真的文件作為檢索結(jié)果輸出的方法。該方法一般被稱為全文檢索(full text search)。將組合了關(guān)鍵字的有無(wú)的邏輯式的方式稱為檢索(條件)式。第2種方法是輸入文章,輸出使與該文章類似的文件按類似度順序排序(ランク付け)的檢索結(jié)果的方法。該方法一般被稱為概念檢索(similarity search)。由于概念檢索只要以文章形式原樣輸入想要檢索的主題(topic)即可,所以即便不是文件檢索專家的人也能夠容易地使用。由于檢索結(jié)果被帶順位地顯示,所以用戶能夠從排序靠前(上位)的重要文件開(kāi)始優(yōu)先查閱。另ー方面,對(duì)于文件為何被靠前排序,難以確認(rèn)其理由。成為概念檢索中的類似度的重要因素是輸入的文章與檢索結(jié)果的文件之間的詞語(yǔ)(単語(yǔ))分布的重復(fù)、作為檢索結(jié)果而得到的文件的文件長(zhǎng)度等。因此,難以簡(jiǎn)潔地表現(xiàn)類似度的依據(jù)。另外,概念檢索的構(gòu)造成為黑箱(black box),類似度的依據(jù)大多為非公開(kāi)。如果不知道文件作為檢索結(jié)果而得到的依據(jù),則用戶不知曉對(duì)該檢索結(jié)果查閱到什么程度才是足夠的。另外,也無(wú)法確認(rèn)是否完全檢索了所希望的主題。概念檢索如Web頁(yè)的檢索那樣,適合于在靠前少數(shù)的文件中有ー個(gè)所希望的文件即可的狀況,但針對(duì)在專利文獻(xiàn)、學(xué)術(shù)論文的檢索中希望對(duì)某個(gè)主題進(jìn)行網(wǎng)羅性(exhaustive)調(diào)查的狀況,其效率反而差。另ー方面,全文檢索必須利用由關(guān)鍵字的邏輯式(Boolean formula)構(gòu)成的檢索式來(lái)表現(xiàn)想要檢索的主題,需要用于構(gòu)建檢索式的經(jīng)驗(yàn)和專業(yè)知識(shí)。但是,由于檢索文件的基準(zhǔn)是檢索式自身,所以對(duì)用戶而言,基準(zhǔn)明確且容易理解。如果對(duì)被檢索出的文件全部進(jìn)行調(diào)查,則可以說(shuō)調(diào)查了全部由檢索式表現(xiàn)的主題的文件。為了減輕概念檢索的課題,提出了幾種方法。在下述專利文獻(xiàn)I中,抽出在通過(guò)概念檢索而檢索出的靠前數(shù)十件文件中特征性地出現(xiàn)的詞語(yǔ),將其與檢索結(jié)果一同輸出。通過(guò)觀看抽出的特征性詞語(yǔ)的集合,可以理解檢索結(jié)果的大致情況。在下述非專利文獻(xiàn)I中,基于文件間的類似度,將檢索結(jié)果總結(jié)顯示為幾個(gè)組。由于通過(guò)總結(jié)成組,檢索結(jié)果中包含的主題被自動(dòng)地匯集,所以與專利文獻(xiàn)I的方法相比更容易掌握檢索結(jié)果的特征。在下述非專利文獻(xiàn)2中,根據(jù)檢索結(jié)果生成了成為其依據(jù)的關(guān)鍵字的邏輯式。通過(guò)該文獻(xiàn),找到盡可能寬范圍覆蓋檢索結(jié)果的關(guān)鍵字。在找到的關(guān)鍵字的覆蓋范圍不充分的情況下,重新找出覆蓋剩余的文件集合的關(guān)鍵字。通過(guò)該反復(fù)尋找,找出能夠充分覆蓋檢索結(jié)果的關(guān)鍵字,通過(guò)邏輯積(product/conjunction)和邏輯和(sum/dis junction)將這些關(guān)鍵字連接,生成檢索式。另外,將生成的檢索式作為樹(shù)形結(jié)構(gòu)的圖而提示給用戶。
專利文獻(xiàn)I :日本特開(kāi)平10-74210號(hào)公報(bào)非專利又獻(xiàn) I :“Scatter/Gather :a cluster-based approach to browsinglargedocument collections,,,Cutting, D. , Karger, D. , Pedersen, J. , Tukey, J. pp. 318-329, ACMSIGIR’ 92,199非專利文獻(xiàn)2 検索結(jié)果の概要を表すキーワード式生成による質(zhì)問(wèn)修正支援’’,松生泰典,是津耕司,小山聡,田中克己,データ工學(xué)ワークシヨップ(DEWS2005),lCi9,2005。
通過(guò)專利文獻(xiàn)I和非專利文獻(xiàn)I所記載的技術(shù),可以抽出概念檢索的結(jié)果中包含的特征性詞語(yǔ),將其作為概念檢索的依據(jù)進(jìn)行提示。但是,特征性詞語(yǔ)并不一定準(zhǔn)確地表示概念檢索的依據(jù)。通過(guò)非專利文獻(xiàn)2所記載的技術(shù),僅將漏檢少的程度作為評(píng)價(jià)基準(zhǔn)來(lái)抽出詞語(yǔ)。因此,抽出的詞語(yǔ)有可能大多是概念檢索的結(jié)果以外的文件(噪聲noise)中的內(nèi)容。這些詞語(yǔ)作為概念檢索的依據(jù)是不恰當(dāng)?shù)摹?br>
發(fā)明內(nèi)容
本發(fā)明為了解決上述那樣的課題而提出,其目的在于,提供ー種能夠準(zhǔn)確且高效地生成成為概念檢索的依據(jù)的檢索式的技術(shù)。本發(fā)明涉及的檢索式生成裝置構(gòu)筑以通過(guò)邏輯和將檢索術(shù)語(yǔ)(term)的邏輯積結(jié)合而成的積和標(biāo)準(zhǔn)形式(standard sum of products form)來(lái)表示的檢索條件式,將再現(xiàn)率(遺漏少的程度,recall)與精度(噪聲少的程度,precision)作為基準(zhǔn),對(duì)該檢索條件式進(jìn)行評(píng)價(jià)。接著,通過(guò)反復(fù)地將檢索術(shù)語(yǔ)的邏輯積中評(píng)價(jià)值成為最大的邏輯積以邏輯和來(lái)結(jié)合,來(lái)構(gòu)建檢索條件式。根據(jù)本發(fā)明涉及的檢索式生成裝置,通過(guò)用積和標(biāo)準(zhǔn)形式來(lái)表示檢索條件式,能夠防止捜索空間(search space)變得龐大。而且,由于按檢索術(shù)語(yǔ)的每個(gè)邏輯積搜索評(píng)價(jià)值為最大的邏輯積,將其以邏輯和結(jié)合,所以能夠以邏輯積的每ー項(xiàng)高效地搜索用積和標(biāo)準(zhǔn)形式表示的檢索條件式的捜索空間。并且,由于以再現(xiàn)率和精度為基準(zhǔn),按每個(gè)檢索術(shù)語(yǔ)的邏輯積評(píng)價(jià)了檢索條件式,所以能夠按每個(gè)邏輯積使檢索條件式最佳化,提高檢索條件式的準(zhǔn)確性。
圖I是實(shí)施方式I涉及的檢索系統(tǒng)1000的構(gòu)成圖。圖2是表示檢索式生成裝置10的顯示器104進(jìn)行畫(huà)面顯示的檢索接ロ畫(huà)面20的畫(huà)面印象例的圖。圖3是表示成為生成檢索式的對(duì)象的母集合即文件集合D(301)、與能夠由生成的檢索式L檢索的文件集合H(L) (302)的關(guān)系的圖。圖4是概念性地表示檢索式生成部105搜索檢索式L的處理的圖。圖5是對(duì)圖4中說(shuō)明的搜索順序進(jìn)行說(shuō)明的流程圖。圖6是表示圖5的步驟S505的詳細(xì)處理的流程圖。圖7是說(shuō)明檢索式生成部105對(duì)H(L)進(jìn)行近似計(jì)算的方法的圖。
圖8是檢索服務(wù)器12所具備的檢索索引123的構(gòu)成圖。圖9是表示實(shí)施方式3中的檢索索引123的構(gòu)成例的圖。圖10是說(shuō)明在對(duì)文件集合D的一部分進(jìn)行了取樣的基礎(chǔ)上求取F值(F-measure)的方法的圖。
圖11是實(shí)施方式7中的檢索接ロ畫(huà)面20的畫(huà)面印象例。圖12是表示自動(dòng)生成的分類規(guī)則的例子的圖。附圖標(biāo)記說(shuō)明10 :檢索式生成裝置,101 CPU, 102 :存儲(chǔ)器,103 :鍵盤及鼠標(biāo),104 :顯示器,105 檢索式生成部,106 :顯示控制部,107 :數(shù)據(jù)通信部,11 :網(wǎng)絡(luò),12 :檢索服務(wù)器,121 CPU,122 :存儲(chǔ)器,123 :檢索索引,124 :檢索部,125 :數(shù)據(jù)通信部,201 :文本輸入?yún)^(qū)域,202 :文本輸入?yún)^(qū)域,203 :顯示區(qū)域,204 :檢索按鈕,205 :再檢索按鈕,206 :依據(jù)按鈕,207 :全選擇按鈕,208 :全解除按鈕,209 :復(fù)選框,1101 :文本輸入?yún)^(qū)域,1102 :檢索按鈕,1103 :文本輸入?yún)^(qū)域,1104 :顯示區(qū)域,1105 :再檢索按鈕,1106 :依據(jù)按鈕,1000 :檢索系統(tǒng)。
具體實(shí)施例方式<實(shí)施方式1>圖I是本發(fā)明的實(shí)施方式I涉及的檢索系統(tǒng)1000的構(gòu)成圖。檢索系統(tǒng)1000具有檢索式生成裝置10和檢索服務(wù)器12。它們通過(guò)網(wǎng)絡(luò)11連接。檢索式生成裝置10是根據(jù)作為對(duì)文件進(jìn)行檢索的結(jié)果而得到的檢索結(jié)果,生成用于得到該檢索結(jié)果的檢索式的裝置。檢索式生成裝置10具備CPU(Central ProcessingUnit) 101、存儲(chǔ)器102、鍵盤及鼠標(biāo)103、顯示器104、檢索式生成部105、顯示控制部106、數(shù)據(jù)通信部107。CPUlOl執(zhí)行對(duì)檢索式生成裝置10的動(dòng)作進(jìn)行控制的處理。而且,執(zhí)行后述的各程序。存儲(chǔ)器102是對(duì)CPUlOl所執(zhí)行的程序、為了執(zhí)行程序而必要的數(shù)據(jù)等進(jìn)行存儲(chǔ)的存儲(chǔ)裝置。鍵盤及鼠標(biāo)103受理來(lái)自用戶的操作輸入,將其輸出給CPU101。顯示器104按照顯示控制部106的指示對(duì)檢索結(jié)果等進(jìn)行畫(huà)面顯示。數(shù)據(jù)通信部107是通過(guò)網(wǎng)絡(luò)11進(jìn)行數(shù)據(jù)通信用的通信接ロ,例如可以使用利用TCP/IP協(xié)議進(jìn)行通信的LAN (Local AreaNetwork)接ロ等來(lái)構(gòu)成。檢索式生成部105根據(jù)作為對(duì)文件進(jìn)行檢索的結(jié)果而得到的檢索結(jié)果,生成用于獲得該檢索結(jié)果的檢索式。檢索式生成部105根據(jù)需要與檢索服務(wù)器12通信,收集為了生成檢索式而必要的數(shù)據(jù)。顯示控制部106使顯示器104對(duì)后述的圖2中說(shuō)明的檢索接ロ畫(huà)面20進(jìn)行畫(huà)面顯示。顯示控制部106根據(jù)需要與檢索服務(wù)器12通信,收集用于畫(huà)面顯示所必要的數(shù)據(jù)。檢索式生成部105與顯示控制部106既可以利用實(shí)現(xiàn)這些功能的電路器件等硬件來(lái)構(gòu)成,也可以構(gòu)成為安裝了同樣功能的程序。在將檢索式生成部105與顯示控制部106作為程序進(jìn)行安裝的情況下,CPUlOl通過(guò)執(zhí)行這些程序,來(lái)實(shí)現(xiàn)這些功能部的動(dòng)作。數(shù)據(jù)通信部107相當(dāng)于本發(fā)明中的“檢索結(jié)果取得部”。顯示器104相當(dāng)于“顯示部,,。檢索服務(wù)器12是實(shí)施文件檢索并將檢索結(jié)果發(fā)送給檢索式生成裝置10的裝置。檢索服務(wù)器12具備CPU121、存儲(chǔ)器122、檢索索引123、檢索部124、數(shù)據(jù)通信部125。CPU121執(zhí)行對(duì)檢索服務(wù)器12的動(dòng)作進(jìn)行控制的處理。而且,執(zhí)行后述的各程序。存儲(chǔ)器122是對(duì)CPU121所執(zhí)行的程序、為了執(zhí)行程序而必要的數(shù)據(jù)等進(jìn)行存儲(chǔ)的存儲(chǔ)裝置。檢索索引123是將檢索對(duì)象的數(shù)據(jù)調(diào)整(整形)成適合于檢索的數(shù)據(jù)結(jié)構(gòu)(索引)的數(shù)據(jù)。檢索索引123例如可以保存到磁存儲(chǔ)介質(zhì)等存儲(chǔ)介質(zhì)中。數(shù)據(jù)通信部125是通過(guò)網(wǎng)絡(luò)11進(jìn)行數(shù)據(jù)通信的通信接ロ,例如可以使用利用TCP/IP協(xié)議進(jìn)行通信的LAN接ロ等來(lái)構(gòu)成。檢索部124從檢索 式生成裝置10接受要求檢索文件的請(qǐng)求(request),利用檢索索引123檢索出與檢索式相符的文件,并將檢索結(jié)果發(fā)送給檢索式生成裝置10。檢索部124既可以利用實(shí)現(xiàn)其功能的電路器件等硬件構(gòu)成,也可以構(gòu)成為安裝了同樣功能的程序。在將檢索部124作為程序安裝的情況下,CPU121通過(guò)執(zhí)行該程序,來(lái)實(shí)施檢索部124的動(dòng)作。圖2是表示檢索式生成裝置10的顯示器104進(jìn)行畫(huà)面顯示的檢索接ロ畫(huà)面20的畫(huà)面印象例的圖。檢索接ロ畫(huà)面20受理來(lái)自用戶的操作輸入,對(duì)檢索結(jié)果以及檢索式生成部105生成的檢索式進(jìn)行畫(huà)面顯示。以下,對(duì)與檢索接ロ畫(huà)面20的操作相關(guān)的動(dòng)作順序進(jìn)行說(shuō)明。(圖2:動(dòng)作順序步驟I)用戶向文本輸入?yún)^(qū)域201輸入檢索請(qǐng)求。在實(shí)施概念檢索的情況下輸入文章,在實(shí)施全文檢索的情況下輸入檢索式。這里,表示了實(shí)施概念檢索的例子。作為檢索請(qǐng)求,輸入了“特征為含有1,8_桉葉油素(cineole)作為有效成分的塵螨(ヒヨゥヒダニ)的驅(qū)蟲(chóng)劑。”這ー文章。(圖2:動(dòng)作順序步驟2)如果用戶點(diǎn)擊了檢索按鈕204,則顯示控制部106取得文本輸入?yún)^(qū)域201被輸入的字符串,通過(guò)數(shù)據(jù)通信部107向檢索服務(wù)器12發(fā)送將該字符串作為檢索條件的檢索請(qǐng)求。(圖2:動(dòng)作順序步驟3)檢索服務(wù)器12接受檢索式生成裝置10發(fā)送的檢索請(qǐng)求。檢索部124利用檢索索引123檢索與檢索請(qǐng)求相符的文件。檢索部124取得與檢索相符的文件的識(shí)別符、標(biāo)題等,并作為檢索結(jié)果發(fā)送給檢索式生成裝置10。(圖2:動(dòng)作順序步驟4)顯示控制部106通過(guò)數(shù)據(jù)通信部107接受檢索結(jié)果,將其以列表形式顯示到顯示區(qū)域203。顯示區(qū)域203對(duì)檢索結(jié)果中包含的文件的標(biāo)題等進(jìn)行顯示。在各標(biāo)題的旁邊配置有對(duì)選擇/非選擇進(jìn)行切換的復(fù)選框209。復(fù)選框處于選擇狀態(tài)的文件成為生成檢索式的對(duì)象。默認(rèn)下顯示區(qū)域203中顯示的所有文件都被選擇。如果點(diǎn)擊了全選擇按鈕207,則可以統(tǒng)ー選擇所有文件。如果點(diǎn)擊了全解除按鈕208,則可以統(tǒng)ー選擇解除所有文件。(圖2:動(dòng)作順序步驟5)如果用戶點(diǎn)擊了依據(jù)按鈕206,則顯示控制部106將被選擇的文件的識(shí)別符交給檢索式生成部105。檢索式生成部105利用后述的圖3 圖6中說(shuō)明的方法,生成能夠準(zhǔn)確地檢索出在檢索接ロ畫(huà)面20上被選擇的文件的檢索式。(圖2:動(dòng)作順序步驟6)
顯示控制部106將檢索式生成部105生成的檢索式顯示到文本輸入?yún)^(qū)域202。這里顯示了“劑*驅(qū)蟲(chóng)+害蟲(chóng)*驅(qū)蟲(chóng)*成分”這ー檢索式。啟示了如果利用該檢索式實(shí)施全文檢索,則能夠準(zhǔn)確地檢索目前所選擇的文件。用戶可以將實(shí)施概念檢索而得到的檢索結(jié)果的依據(jù)作為與檢索結(jié)果等效的檢索式來(lái)進(jìn)行確認(rèn)。(圖2:動(dòng)作順序步驟6 :補(bǔ)充)
在圖2所示的例子的情況下,雖然在原來(lái)的概念檢索中向文本輸入?yún)^(qū)域201輸入了“塵螨”這ー術(shù)語(yǔ),但在文本輸入?yún)^(qū)域202所顯示的檢索式中使用了更普遍的“害蟲(chóng)”這ー關(guān)鍵字。即,可以說(shuō)使用了文本輸入?yún)^(qū)域201被輸入的文章的概念檢索的結(jié)果,與使用“害蟲(chóng)”這ー普通的關(guān)鍵字進(jìn)行了全文檢索的結(jié)果等效。用戶通過(guò)比較文本輸入?yún)^(qū)域201與202的顯示內(nèi)容,可以確認(rèn)是否實(shí)施了網(wǎng)羅性檢索。并且,如果查閱被選擇的文件的內(nèi)容,則可以完全查遍與包含塵螨的“害蟲(chóng)”相關(guān)的文件。(圖2:動(dòng)作順序步驟7)用戶還可以在文本輸入?yún)^(qū)域202上修正由檢索式生成部105生成的檢索式。如果在修正了檢索式之后點(diǎn)擊再檢索按鈕205,則顯示控制部106取得文本輸入?yún)^(qū)域202被輸入的檢索式,通過(guò)數(shù)據(jù)通信部107向檢索服務(wù)器12發(fā)送將該檢索式作為檢索條件的檢索請(qǐng)求。檢索服務(wù)器12利用該檢索式實(shí)施檢索,顯示控制部106將其檢索結(jié)果顯示到顯示區(qū)域203。(圖2:動(dòng)作順序步驟7 :補(bǔ)充)例如,有可能在目前的檢索結(jié)果中還包含與塵螨以外的害蟲(chóng)相關(guān)的文件。如果只想要與塵螨有關(guān)的文件,則只要將文本輸入?yún)^(qū)域202中顯示的“害蟲(chóng)”修正為“塵螨”,使用“劑令驅(qū)蟲(chóng)+塵螨令驅(qū)蟲(chóng)令成分”這ー檢索式實(shí)施再度檢索即可。以上,對(duì)檢索系統(tǒng)1000的構(gòu)成進(jìn)行了說(shuō)明。接下來(lái),對(duì)檢索式生成部105生成檢索式的方法進(jìn)行說(shuō)明。圖3是表示了成為生成檢索式的對(duì)象的母集合即文件集合D (301)、與可以通過(guò)生成的檢索式L來(lái)檢索的文件集合H(L) (302)的關(guān)系的圖。如果是能夠只不漏掉D地進(jìn)行檢索的檢索式,則D(301)與H(L) (302) —致,所以優(yōu)選找出滿足這樣的條件的檢索式し但是,由于文件集合D的選擇方法的不同,也有時(shí)不存在這樣的檢索式。鑒于此,實(shí)際上捜索D與H(L)的交集、即DAH(L) (303)盡可能寬泛那樣的檢索式し在本實(shí)施方式I中,使用F值作為用于該搜索的目標(biāo)函數(shù)值。F 值是再現(xiàn)率 R(recall) (304)與精度 P (precision) (305)的調(diào)和平均(307)。再現(xiàn)率R表示通過(guò)檢索式L能夠不漏掉D地進(jìn)行檢索的程度,相當(dāng)于檢索結(jié)果H(L)中的包含在文件集合D的文件相對(duì)文件集合D所占的比例。精度P表示通過(guò)檢索式L只檢索D的程度,相當(dāng)于檢索結(jié)果H(L)中的包含在文件集合D的文件相對(duì)于檢索結(jié)果H(L)所占的比例。如果將式304與式305代入到式307,則F值的式由式308表示。式308的分母為D(301)的面積與H(L) (302)的面積之和,式308的分子為D(301)的面積與H(L) (302)的面積的交集即D Λ H(L) (303)的面積的2倍。當(dāng)D與H(L)相等吋,F(xiàn)值成為最大值I。當(dāng)D與H(L)完全不重合吋,F(xiàn)值成為最小值O。另外,在本實(shí)施方式I中,采用F值作為評(píng)價(jià)檢索式L的基準(zhǔn),將再現(xiàn)率R與精度P對(duì)等地調(diào)和平均,但也可以進(jìn)行加權(quán),來(lái)重視其中一方。由于按照應(yīng)用,存在希望犧牲精度與再現(xiàn)率的任意一方而重視另一方的情況,所以在這樣的情況下,只要對(duì)任意一方施加比另一方重視的權(quán)重即可。另外,在本實(shí)施方式I中使用了式308所示的F值作為評(píng)價(jià)檢索式L的基準(zhǔn),但只要是使用再現(xiàn)率R與精度P的評(píng)價(jià)式,也可以使用式308以外的評(píng)價(jià)式。
以上,說(shuō)明了檢索式生成部105生成檢索式L的原理。檢索式生成部105只要搜索使式308所示的F值為最大的檢索式L即可。但是,如果設(shè)為能夠使用任意形式的檢索式,則有可能導(dǎo)致搜索空間變龐大。該課題被稱為搜索問(wèn)題。在本發(fā)明中,為了解決搜索問(wèn)題,將檢索式的形式限定為積和標(biāo)準(zhǔn)形式,按構(gòu)成檢索式的邏輯積的每ー項(xiàng),通過(guò)貪婪算法(greedyalgorithm)搜索D。該搜索法與F值的最大化相適合。詳細(xì)內(nèi)容將在后面敘述。積和標(biāo)準(zhǔn)形式是如(a * b * c) + (d -k e) + (f -k g)那樣,由檢索術(shù)語(yǔ)的邏輯積(* )構(gòu)成的項(xiàng)以邏輯和(+)結(jié)合的形式。在本發(fā)明中,通過(guò)反復(fù)處理,逐項(xiàng)生成構(gòu)成積和標(biāo)準(zhǔn)形式的各邏輯積。在上述例子的情況下,由于邏輯積有三個(gè),所以反復(fù)處理執(zhí)行3次。在各反復(fù)處理中,捜索能夠以目前被提供的文件集合盡可能寬泛、且噪聲的混入變少的方式進(jìn)行檢索的邏輯積。這里的目標(biāo)函數(shù)使用前述的F值。接下來(lái),將通過(guò)生成的邏輯積能夠檢索的文件從被提供的文件集合中去掉,對(duì)剩余的文件集合反復(fù)進(jìn)行相同的處理。如果剩余的文件集合沒(méi)了、或能夠新檢索的文件的數(shù)量為規(guī)定閾值以下,則停止反復(fù)處理。圖4是概念性地表示檢索式生成部105搜索檢索式L的處理的圖。檢索式生成部105捜索能夠從文件集合D (301)得到所希望的檢索結(jié)果的檢索式し以下,對(duì)圖4所示的處理順序進(jìn)行說(shuō)明。(圖4:處理順序步驟I)檢索式生成部105生成由檢索術(shù)語(yǔ)的ー個(gè)邏輯積構(gòu)成的檢索式LI。檢索式生成部105搜索F值為最大的LI。在檢索式生成部105在搜索LI的過(guò)程中,將構(gòu)成邏輯積的檢索術(shù)語(yǔ)以及檢索術(shù)語(yǔ)的個(gè)數(shù)最佳化。例如,得到LI = a * b * c等結(jié)果。檢索式LI覆蓋的文件集合是圖4的H(Ll) (302a)。D與H(Ll)重合的部分D Λ H(Ll)是圖4的斜線區(qū)域303ao(圖4:處理順序步驟2)檢索式生成部105針對(duì)從文件集合D除去了 H(Ll)的部分實(shí)施與步驟I同樣的處理,生成F值為最大的檢索式L2。檢索式L2由檢索術(shù)語(yǔ)的ー個(gè)邏輯積構(gòu)成。這里得到的檢索式L2不限于和步驟I相同。例如,得到L2 = d * e等結(jié)果。L2所覆蓋的文件集合是圖4 的 H(L2) (302b)。(圖4:處理順序步驟3)檢索式生成部105對(duì)從文件集合D除去了 H (LI)和H (L2)的部分實(shí)施與步驟I同樣的處理,生成F值為最大的檢索式L3。檢索式L3由檢索術(shù)語(yǔ)的ー個(gè)邏輯積構(gòu)成。這里得到的檢索式L3不限于和步驟I 步驟2相同。例如,得到L3 = f * g等結(jié)果。L3所覆蓋的文件集合是圖4的H(L3) (302c)。(圖4:處理順序步驟4)檢索式生成部105將與以上同樣的處理反復(fù)進(jìn)行規(guī)定次數(shù)或者直到文件集合D中無(wú)法覆蓋的范圍成為規(guī)定范圍以下。這里,將反復(fù)次數(shù)假定為3次。檢索式捜索部105將在各步驟中得到的檢索式通過(guò)邏輯和來(lái)結(jié)合,作為最終的檢索式し這里為L(zhǎng) = L1+L2+L3=(a · b · c) + (d * e) + (f 女 g)。(圖4:處理順序步驟4 :補(bǔ)充)圖4的用虛線包圍的部分成為檢索式L能夠覆蓋的文件集合。由于在各步驟I 步驟3中,局部地生成了 F值為最大的邏輯積LI L3,所以將它們結(jié)合后的積和標(biāo)準(zhǔn)形式的F值也相應(yīng)地成為大的值。由于利用反復(fù)取得局部最佳解的貪婪算法來(lái)生成檢索式L,所以并不一定限于得到大范圍(大域)的最大值,可以避免搜索空間變得龐大。圖5是對(duì)圖4中說(shuō)明的搜索順序進(jìn)行說(shuō)明的流程圖。以下,對(duì)圖5的各步驟進(jìn)行說(shuō)明。(圖5 :步驟 S501)檢索式生成部105取得構(gòu)成文件集合D的各文件。D的要素d_i是各文件的識(shí)別符。檢索式生成部105可以向檢索服務(wù)器12詢問(wèn)文件集合D的各構(gòu)成要素,也可以由用戶輸入各構(gòu)成要素。(圖5 :步驟 S502)檢索式生成部105將用于輸出最終檢索式L的邏輯交集設(shè)為0,將O以空集合進(jìn)行初始化。(圖5 :步驟 S503)檢索式生成部105設(shè)定用于對(duì)是否結(jié)束本處理進(jìn)行判定的剰余文件數(shù)閾值c_mirio對(duì)于c_min將在步驟S509中另外說(shuō)明。c_min的值可以預(yù)先保存到存儲(chǔ)器102等中,也可以由用戶輸入。(圖5 :步驟 S504)檢索式生成部105反復(fù)進(jìn)行以下的步驟S505 S508,直到滿足在步驟S509中說(shuō)明的條件為止。(圖5 :步驟 S505)檢索式生成部105搜索F值為最大的檢索式し檢索式L由檢索術(shù)語(yǔ)的ー個(gè)邏輯積構(gòu)成。本步驟與在圖4中說(shuō)明的步驟I 步驟3中分別搜索LI L3的處理對(duì)應(yīng)。本步驟的詳細(xì)內(nèi)容將在圖6中另外說(shuō)明。(圖5 :步驟 S506)檢索式生成部105作為集合O的構(gòu)成要素而追加在步驟S505中得到的檢索式し(圖5 :步驟 S507 S508)檢索式生成部105將利用在步驟S505中得到的檢索式L能夠檢索的文件集合設(shè)為DL(S507)。檢索式生成部105從文件集合D中將DL減去,作為新的文件集合D (S508)。(圖5:步驟 S5O9)檢索式生成部105在文件集合D為空,或者在步驟S505中新檢索到的文件數(shù)(DL的要素?cái)?shù))比閾值c_min小的情況下,結(jié)束步驟S505 S508的反復(fù)處理。在任一的條件都不滿足的情況下,返回到步驟S505,反復(fù)進(jìn)行同樣的處理。(圖5:步驟S509 :補(bǔ)充)在本步驟中,當(dāng)能夠新檢索的文件數(shù)小于c_min時(shí),結(jié)束反復(fù)搜索。該結(jié)束條件為了不生成只能夠檢索極少數(shù)量的文件那樣的特殊邏輯積是必要的。在本實(shí)施方式I中,由于利用貪婪算法捜索了檢索式L,所以隨著反復(fù)處理不斷進(jìn)行,能夠新覆蓋的文件數(shù)有減少的趨勢(shì)。因此,由于能夠覆蓋的文件數(shù)轉(zhuǎn)變成増加的可能性少,所以可以在DL的要素?cái)?shù)小于c_min的時(shí)刻,立即結(jié)束反復(fù)搜索。(圖5:步驟S510)檢索式生成部105將生成的檢索式所保存的O輸出給顯示控制部106。例如在最終生成了 L= (a * b * c) + (d * e) + (f * g)這一檢索式的情況下,O = {a*b*c,d*
e, f * g} ο圖6是表示圖5的步驟S505的詳細(xì)處理的流程圖。以下,對(duì)圖6的各步驟進(jìn)行說(shuō)明。(圖6 :步驟 S6Ol)檢索式生成部105取得構(gòu)成文件集合D的各文件。本步驟中的文件集合D等于在步驟S501以及S508中得到的D。(圖6 :步驟 S6O2)檢索式生成部105收集構(gòu)成在步驟S505中生成的檢索式的邏輯積的候補(bǔ)的檢索術(shù)語(yǔ)(關(guān)鍵字),將其作為檢索術(shù)語(yǔ)集合T??梢詫內(nèi)的文件中出現(xiàn)的所有術(shù)語(yǔ)放入到T中,也可以僅將D內(nèi)權(quán)重高的規(guī)定個(gè)數(shù)術(shù)語(yǔ)放入到T中。(圖6 :步驟S602 :補(bǔ)充I)作為對(duì)在本步驟中放入到檢索術(shù)語(yǔ)集合T中的術(shù)語(yǔ)進(jìn)行選擇的基準(zhǔn)的權(quán)重,例如可以使用IDF(Inverse Document Frequency :逆向文件頻率)值等。權(quán)重的值可以向檢索服務(wù)器12詢問(wèn),也可以由檢索式生成部105計(jì)算。為了計(jì)算權(quán)重而需要的數(shù)據(jù)、權(quán)重的計(jì)算方法可以使用任意的公知方法。(圖6 :步驟 S602 :補(bǔ)充 2)在本實(shí)施方式I中,假設(shè)使用詞語(yǔ)(詞素(part of speech))作為檢索術(shù)語(yǔ),但除此之外例如也可以使用N元字符(character N-gram)等。(圖6:步驟 S603)檢索式生成部105設(shè)定搜索的深度的上限l_max。捜索的深度相當(dāng)于構(gòu)成檢索式L中包含的各邏輯積的要素?cái)?shù)。例如,當(dāng)在步驟S505中最大將3個(gè)檢索術(shù)語(yǔ)的邏輯積設(shè)為捜索范圍的情況下,l_max = 3。該情況下,能夠通過(guò)邏輯積將檢索術(shù)語(yǔ)結(jié)合的最大個(gè)數(shù)為3個(gè)。(圖6:步驟 S604)檢索式生成部105對(duì)用于保持正在捜索的地點(diǎn)的集合B進(jìn)行初始化,設(shè)定搜索開(kāi)起點(diǎn)。例如作為開(kāi)起點(diǎn),將T中包含的全部術(shù)語(yǔ)不進(jìn)行邏輯結(jié)合地登記到集合B中。該情況下,例如B= {a,b,C,· · ·}。作為將集合B初始化的其他方法,例如可考慮從F值大的檢索術(shù)語(yǔ)僅抽出規(guī)定個(gè)數(shù),將其登記到B中。(圖6:步驟 S605)檢索式生成部105將集合B中登記的檢索術(shù)語(yǔ)中F值最大的術(shù)語(yǔ)設(shè)為B_max。以后,每當(dāng)?shù)玫奖菷值大的檢索術(shù)語(yǔ)的邏輯積,便更新B_max。(圖6 :步驟 S6O6 S6O7) 檢索式生成部105對(duì)表示搜索的深度的變量i進(jìn)行初始化(S606)。檢索式生成部105反復(fù)進(jìn)行 以下的步驟S607 S613,直到搜索深度i超過(guò)上限l_max。步驟S607 S613是針對(duì)搜索深度i的搜索處理。即,在步驟S607 S613中,進(jìn)行幅度優(yōu)先搜索。(圖6 :步驟 S608 S609)檢索式生成部105對(duì)表示集合B的構(gòu)成要素的索引的變量j進(jìn)行初始化(S608)。檢索式生成部105反復(fù)進(jìn)行以下的步驟S610 S612,直到到達(dá)集合B的最終要素編號(hào)m為止(S609)。(圖6:步驟 S610)檢索式生成部105將集合T內(nèi)的ー個(gè)檢索術(shù)語(yǔ)通過(guò)邏輯積與集合B的第j個(gè)要素B_j結(jié)合。以邏輯積結(jié)合的檢索術(shù)語(yǔ)選擇F值通過(guò)結(jié)合增加最多的檢索術(shù)語(yǔ)。S卩,在本步驟中,通過(guò)爬山算法(hill-climbing algorithm)搜索了檢索術(shù)語(yǔ)。(圖6:步驟S610 :補(bǔ)充)在上述說(shuō)明中,結(jié)合了 F值最大的邏輯積,但也可以預(yù)備采用F值比最大值小的檢索術(shù)語(yǔ),寬泛地確保搜索范圍。該情況下,隨著搜索的進(jìn)行,導(dǎo)致保持目前的捜索地點(diǎn)的集合B也變大,也可以使用預(yù)先決定集合B的要素?cái)?shù)的上限值,從F值大的開(kāi)始優(yōu)先向集合B登記等方法。(圖6:步驟 S611)如果在步驟S610中新結(jié)合了檢索術(shù)語(yǔ)的要素BJ的F值比目前的B_max的F值大,則檢索式生成部105用BJ將Bjnax更新。(圖6:步驟 S612)檢索式生成部105使變量j加I (increment)。如果j沒(méi)有到達(dá)集合B的最終要素編號(hào)m,則返回到步驟S609,重復(fù)同樣的處理,如果達(dá)到了,則結(jié)束步驟S609 S612的反復(fù)處理。(圖6:步驟 S613)檢索式生成部105使變量i加I。如果i沒(méi)有達(dá)到搜索深度上限l_max,則返回到步驟S607,重復(fù)同樣的處理,如果達(dá)到了,則結(jié)束步驟S607 S613的反復(fù)處理。(圖6:步驟 S614)檢索式生成部105輸出目前的B_max作為本處理的結(jié)果?!磳?shí)施方式I:總結(jié)〉以上,對(duì)本實(shí)施方式I涉及的檢索式生成裝置10生成檢索式的方法進(jìn)行了說(shuō)明。檢索式生成裝置10可以自動(dòng)生成與概念檢索的檢索結(jié)果等效的檢索式。本實(shí)施方式I涉及的檢索式生成裝置10以積和標(biāo)準(zhǔn)形式生成用于獲得所希望的檢索結(jié)果的檢索式L。由此,能夠防止搜索最佳的檢索式L時(shí)的搜索空間變得龐大。另外,本實(shí)施方式I涉及的檢索式生成裝置10通過(guò)反復(fù)進(jìn)行對(duì)檢索術(shù)語(yǔ)的每個(gè)邏輯積按規(guī)定的評(píng)價(jià)式進(jìn)行評(píng)價(jià),將評(píng)價(jià)值最大的邏輯積以邏輯和結(jié)合的步驟,生成可以獲得所希望的檢索結(jié)果的檢索式し由此,能夠按邏輯積的每ー項(xiàng)高效地搜索檢索式L的捜索空間。由于該方法按構(gòu)成檢索式L的邏輯和的每ー項(xiàng)實(shí)施最佳化,所以非常適合采用積和標(biāo)準(zhǔn)形式的方法,能夠高效地生成檢索式し另外,本實(shí)施方式I涉及的檢索式生成裝置10以再現(xiàn)率R和精度P為基準(zhǔn),按檢索術(shù)語(yǔ)的每個(gè)邏輯積評(píng)價(jià)檢索式し由此,能夠按每個(gè)邏輯積將檢索式L最佳化,提高檢索式L的準(zhǔn)確性。〈實(shí)施方式2>在實(shí)施方式I中,說(shuō)明了使用再現(xiàn)率R和精度P對(duì)檢索式L進(jìn)行評(píng)價(jià)的方法。由于在求取精度P時(shí),需要取得與檢索式L相符合的文件數(shù)、即符合(hit)件數(shù)Ih(L) |,所以檢索式生成部105可以根據(jù)需要向檢索服務(wù)器12詢問(wèn)Ih(L) I。不過(guò),如果不實(shí)際使用檢索式L來(lái)嘗試實(shí)施檢索,則不知道IH(L) I值的準(zhǔn)確值。在實(shí)施方式I中,由于在搜索過(guò)程中多次評(píng)價(jià)檢索式L,所以導(dǎo)致檢索服務(wù)器12實(shí)施檢索時(shí)的處理負(fù)荷變大。將該課題稱為大范圍符合件數(shù)取得問(wèn)題。鑒于此,在本發(fā)明的實(shí)施方式2中,取代實(shí)際實(shí)施檢索,而使用構(gòu)成檢索式L的每個(gè)關(guān)鍵字的符合件數(shù),對(duì)Ih(L) I進(jìn)行近似。由此,試著降低檢索負(fù)荷,來(lái)解決大范圍符合件數(shù)取得問(wèn)題。其中,由于檢索系統(tǒng)1000的構(gòu)成與實(shí)施方式I相同,所以下面以用于解決大范圍符合件數(shù)取得問(wèn)題的方法為中心進(jìn)行說(shuō)明。圖7是說(shuō)明檢索式生成部105近似計(jì)算H(L)的方法的圖。以下對(duì)圖7所示的順序按每個(gè)式進(jìn)行說(shuō)明。(圖7:式701)檢索式生成部105在實(shí)施圖6的各步驟中計(jì)算出F值的步驟(S605和S610)吋,取得作為取得符合件數(shù)|h(l) I的對(duì)象的檢索式し由于檢索式生成部105按構(gòu)成檢索式L的每個(gè)邏輯積求取IH(L) I,所以本步驟中的L稱為檢索術(shù)語(yǔ)的邏輯積。這里,假設(shè)為L(zhǎng) =tl * t2 * · · · * t_k。t」是各檢索術(shù)語(yǔ)。(圖7:式702)檢索式生成部105取得成為檢索對(duì)象的所有文件數(shù)N。N的值可以向檢索服務(wù)器12詢問(wèn),也可以由用戶輸入。(圖7:式703)在將通過(guò)檢索式(邏輯積)L能夠檢索某個(gè)文件的概率定義為P(L)時(shí),能夠用L檢索的文件數(shù)H(L)可以通過(guò)P(L) * N推定。(圖7:式704)如果構(gòu)成檢索式(邏輯積)L的各檢索術(shù)語(yǔ)t_l t_k近似成在文件內(nèi)獨(dú)立出現(xiàn)的檢索術(shù)語(yǔ),則 P (U ^ P(t_l) * P (t_2) * · · · * P (t_k) O(圖7:式705)P(t_i)是用檢索術(shù)語(yǔ)t_i能夠檢索某個(gè)文件的概率,能夠以t_i的符合件數(shù)H (t_i)相對(duì)于所有文件數(shù)N的比來(lái)推定。(圖7:式706)根據(jù)以上的式701 式705,可知求取的H(L)能夠通過(guò)使用了每個(gè)檢索術(shù)語(yǔ)的符合件數(shù)H(t_i)之積的式706近似計(jì)算。檢索式生成部105最終能夠使用式706,近似計(jì)算H(L)。以上,說(shuō)明了近似計(jì)算|h(l) I的原理。接下來(lái),對(duì)用于近似計(jì)算|h(l) I的具體安裝方案進(jìn)行說(shuō)明。圖8是檢索服務(wù)器12所具備的檢索索引123的構(gòu)成圖。為了檢索式生成部105高速取得各術(shù)語(yǔ)t_i中每ー個(gè)的符合件數(shù)H(t_i),使用檢索索引123所保持的數(shù)據(jù)是有效的。檢索索引123具有檢索術(shù)語(yǔ)t_i (801)、包含有檢索術(shù)語(yǔ)t_i的文件的列表(802)。該列表802的長(zhǎng)度與使用檢索術(shù)語(yǔ)t_i實(shí)施檢索時(shí)的符合件數(shù)H(t_i)相等。檢索服務(wù)器12也可以預(yù)先計(jì)算并保持(803)。在任意ー種的情況下,檢索式生成部105都能夠通過(guò)使用檢索索引123所保持的數(shù)據(jù),來(lái)高速取得H(t_i)。S卩,可以高速地近似計(jì)算|H(L) I?!磳?shí)施方式2:總結(jié)〉綜上所述,本實(shí)施方式2涉及的檢索式生成裝置10取得由檢索索引123保持的每個(gè)檢索術(shù)語(yǔ)t_i的符合件數(shù),利用該值近似計(jì)算檢索式L的符合件數(shù)|h(l) I。由此,不需要?dú)按稳〉梅霞?shù)Ih(L) I再實(shí)施檢索,不僅可以降低檢索負(fù)荷,而且能夠使生成檢索式L的處理高速化?!磳?shí)施方式3>在實(shí)施方式I中,檢索式生成部105在計(jì)算再現(xiàn)率R和精度P時(shí)需要求出Idah(L) I。由于Idah(L) I是文件集合D中的與檢索式L符合的文件數(shù),所以如果不實(shí)際進(jìn)行檢索,則無(wú)法知曉準(zhǔn)確的值。將該課題稱為局部符合件數(shù)取得問(wèn)題。局部符合件數(shù)|d λ h(l) I與大范圍符合件數(shù)|h(l) I相比,對(duì)生成的邏輯積的精度有大幅影響。因此,只要處理時(shí)間允許,優(yōu)選實(shí)際實(shí)施檢索來(lái)取得。當(dāng)在現(xiàn)實(shí)的時(shí)間內(nèi)無(wú)法取得|D AH(L) I時(shí),也可以使用檢索索引123來(lái)輔助檢索式生成部105。鑒于此,在本發(fā)明的實(shí)施方式3中,對(duì)將各文件中包含的檢索術(shù)語(yǔ)的列表預(yù)先保存到檢索索引123內(nèi)并用其來(lái)取得|d λ h(l) I的方法進(jìn)行說(shuō)明。圖9是表示本實(shí)施方式3中的檢索索引123的構(gòu)成例的圖。在本實(shí)施方式3中,檢索索引123除了圖8中說(shuō)明的構(gòu)成之外,還保持圖9所示的數(shù)據(jù)。其他的構(gòu)成與實(shí)施方式I 2相同。檢索索引123針對(duì)文件集合D中包含的各文件d_i (901),保持該文件包含的檢索術(shù)語(yǔ)的列表(902)。檢索式生成部105在求取局部符合件數(shù)|D Λ H(L) I吋,向檢索服務(wù)器12詢問(wèn)檢索式L中包含的全部檢索術(shù)語(yǔ)是否包含在針對(duì)文件d_i的檢索術(shù)語(yǔ)列表902中。由此,可以高速得到D AH(L) I。在檢索索引123沒(méi)有保持圖9所示的數(shù)據(jù)而只保持有圖8所示的數(shù)據(jù)時(shí),需要在對(duì)各文件d_i中所包含的檢索術(shù)語(yǔ)進(jìn)行解析的基礎(chǔ)上實(shí)施同樣的處理。當(dāng)然,在集合D中包含的文件數(shù)少、能夠在現(xiàn)實(shí)的時(shí)間內(nèi)取得|D λ H(L) I的情況下,不必一定預(yù)先準(zhǔn)備圖9所示的數(shù)據(jù)?!磳?shí)施方式3:總結(jié)〉綜上所述,本實(shí)施方式3涉及的檢索式生成裝置100利用檢索索引123所保持的、文件d_i(901)中包含的檢索術(shù)語(yǔ)的列表(902),求出局部符合件數(shù)|D Λ H(L) I。由此,與在對(duì)各文件d i中包含的檢索術(shù)語(yǔ)進(jìn)行了解析的基礎(chǔ)上求出Idah(L)I的情況相比,可以減輕處理負(fù)荷、高速地生成檢索式し
〈實(shí)施方式4>在本發(fā)明的實(shí)施方式4中,對(duì)取代實(shí)施方式3中說(shuō)明的高速求出局部符合件數(shù)Id λ h(l) I的方法,而通過(guò)使用了取樣的近似方法,推定|d λ h(l) I的步驟進(jìn)行說(shuō)明。其他的構(gòu)成與實(shí)施方式3相同。圖10是說(shuō)明在對(duì)文件集合D的一部分進(jìn)行了取樣的基礎(chǔ)上求出F值的方法的圖。優(yōu)選取樣方法采用隨機(jī)取樣。圖10的集合S(3011)是從文件集合D(301)中對(duì)一部分取樣而得到的文件集合。由于通過(guò)隨機(jī)取樣抽出集合S,所以與集合D相關(guān)的統(tǒng)計(jì)量可以通過(guò)對(duì)與集合S相關(guān)的統(tǒng)計(jì)量乘以系數(shù)|d|/|s|來(lái)推定。因此,局部符合件數(shù)Idah(L)I可以通過(guò)對(duì)集合s的局部符合件數(shù)Isah(L)I乘以系數(shù)|d|/|s|來(lái)推定。綜上所述,用于計(jì)算文件集合D的F值的計(jì)算式1001可以通過(guò)圖10的計(jì)算式1002來(lái)近似。檢索式生成部105只要使用計(jì)算式1002近似計(jì)算F值即可。由于通過(guò)使用計(jì)算式1002,在文件數(shù)比集合D少的集合S的范圍內(nèi)取得局部符合件數(shù),所以可降低求取F值的處理負(fù)荷、能夠更高速地生成檢索式し〈實(shí)施方式5>實(shí)施方式4中說(shuō)明的計(jì)算式1002也可以用于設(shè)定邏輯積L的目標(biāo)符合件數(shù)X。這里,被預(yù)先提供了將構(gòu)成要素不明的要素?cái)?shù)為X的文件集合D中一部分提取后的集合S,以生成檢索文件集合D的邏輯積L為目的進(jìn)行設(shè)定。假設(shè)提供的文件集合S是從要素?cái)?shù)為X的假想文件集合D通過(guò)隨機(jī)取樣而抽出的集合。該情況下,如果生成只能準(zhǔn)確地檢索文件集合D的檢索式L,則結(jié)果可以得到符合件數(shù)為X的檢索式し因此,檢索式生成部105只要以帶入了 F值=I、|D| =X、|H(L) I =X的計(jì)算式1001成立那樣的檢索式L為目標(biāo)進(jìn)行搜索即可。在被提供文件集合S的情況下,只要在對(duì)計(jì)算式1002的Isl帶入了 S的要素?cái)?shù)的基礎(chǔ)上,搜索該式成立那樣的檢索式L即可。由于這里設(shè)定的|d| =X為目標(biāo)值,所以并不限于檢索式生成部105—定能夠準(zhǔn)確地生成符合X件的檢索式L,但如果捜索是網(wǎng)羅式捜索,則認(rèn)為更能接近目標(biāo)符合件數(shù)X?!磳?shí)施方式6>在本發(fā)明的實(shí)施方式6中,說(shuō)明對(duì)構(gòu)成文件集合D的文件的權(quán)重(檢索分?jǐn)?shù)(score))進(jìn)行了考慮的動(dòng)作例。檢索系統(tǒng)1000的構(gòu)成與實(shí)施方式I 5相同。在概念檢索中,檢索結(jié)果一般在基于相對(duì)于作為檢索條件而輸入的文章的類似度被排序的狀態(tài)下得到。例如,考慮從概念檢索的結(jié)果選擇靠前100件來(lái)作為集合D,生成與集合D等效的檢索式L的情況。即便是同樣地能夠檢索99件的檢索式,與無(wú)法檢索出檢索排序第I位的文件的檢索式相比,可以說(shuō)無(wú)法檢索出檢索排序第100位的文件的檢索式更準(zhǔn)確地表示了集合D。即,即便是覆蓋相同文件數(shù)的檢索式,也優(yōu)選更多地覆蓋靠前文件的檢索式。在本實(shí)施方式6中,檢索式生成部105按照能夠生成更多地檢索出檢索排序?yàn)榭壳暗奈募臋z索式L的方式,在計(jì)算F值時(shí),加上檢索分?jǐn)?shù)。檢索分?jǐn)?shù)是用于對(duì)檢索結(jié)果賦予排序時(shí)使用的評(píng)價(jià)值,分?jǐn)?shù)值越高,越被賦予靠前排序。檢索式生成部105為了生成如能夠優(yōu)先檢索出檢索分?jǐn)?shù)高的文件那樣的檢索式し取代計(jì)算式304的|D 1 (集合D內(nèi)的文件數(shù))而使用集合D內(nèi)的文件的檢索分?jǐn)?shù)總和。同樣,取代Id λ h(l) I而使用通過(guò)檢索式L而符合的集合D內(nèi)的文件的檢索分?jǐn)?shù)總和。由此,通過(guò)計(jì)算式304計(jì)算出的再現(xiàn)率R成為將能夠檢索式L覆蓋的文件的檢索分?jǐn)?shù)的值也考慮在內(nèi)。同樣,檢索式生成部105取代計(jì)算式305的|H(L)|而使用在利用檢索式L進(jìn)行檢索時(shí)符合的文件的檢索分?jǐn)?shù)總和。不過(guò),由于難以取得集合D中不包含的文件的檢索分?jǐn)?shù),所以將集合D內(nèi)的文件的最小檢索分?jǐn)?shù)作為這些文件的檢索分?jǐn)?shù)。對(duì)于計(jì)算式305的Idah(L)而言,與計(jì)算式304同樣。另外,各文件的檢索分?jǐn)?shù)只要在數(shù)據(jù)通信部107從檢索服務(wù)器12取得檢索結(jié)果時(shí)與其一井取得即可?!磳?shí)施方式6:總結(jié)〉
綜上所述,本實(shí)施方式6涉及的檢索式生成裝置10在評(píng)價(jià)檢索式L吋,使用將檢索分?jǐn)?shù)考慮在內(nèi)的評(píng)價(jià)式。由此,由于能夠得到可優(yōu)先檢索出檢索排序?yàn)榭壳暗奈募臋z索式L,所以可生成適合檢索需求的檢索式。〈實(shí)施方式7>在本發(fā)明的實(shí)施方式7中,說(shuō)明將檢索結(jié)果群集化(clustering),針對(duì)各自的群集(cluster)生成檢索式并加以顯示的構(gòu)成。由于和群集化相關(guān)的處理以及畫(huà)面顯示以外與實(shí)施方式I 6相同,所以下面以不同點(diǎn)為中心進(jìn)行說(shuō)明。在本實(shí)施方式7中,檢索式生成部105將作為檢索結(jié)果而得到的文件集合群集化。群集化是將文件集合分割成部分集合(群集)的處理。各部分集合中匯集了相互類似的文件。檢索式生成部105可以使用任意公知的群集化方法。由于如果通過(guò)群集化將檢索結(jié)果分割成部分集合,則檢索結(jié)果被按相關(guān)聯(lián)的每個(gè)主題整理,所以檢索結(jié)果的預(yù)料性變好、易于縮小范圍。另ー方面,難以確認(rèn)各群集中包含的文件具有什么樣的主題。在如非專利文獻(xiàn)I那樣的現(xiàn)有技術(shù)中,將各群集中包含的特征性語(yǔ)句與檢索結(jié)果一同顯示,但難以只通過(guò)特征性語(yǔ)句充分表示該群集中包含的主題。鑒于此,在本實(shí)施方式7中,生成能夠檢索各群集中包含的文件集合的檢索式,將其與群集一并顯示。圖11是本實(shí)施方式7中的檢索接ロ畫(huà)面20的畫(huà)面印象例。以下,對(duì)與圖11的檢索接ロ畫(huà)面20的操作相關(guān)的動(dòng)作順序進(jìn)行說(shuō)明。(圖11:動(dòng)作順序步驟I)用戶向文本輸入?yún)^(qū)域1101輸入檢索請(qǐng)求。在實(shí)施概念檢索的情況下輸入文章,在實(shí)施全文檢索的情況下輸入檢索式。這里表示了實(shí)施概念檢索的例子。作為檢索請(qǐng)求,輸入了“用于拍攝照片或者用于投影或直視照片的裝置”這ー文章。(圖11:動(dòng)作順序步驟2 步驟3)如果用戶點(diǎn)擊了檢索按鈕1102,則實(shí)施與在圖2的步驟2 步驟3中說(shuō)明的處理相同的處理。(圖11:動(dòng)作順序步驟4)顯示控制部106通過(guò)數(shù)據(jù)通信部107接受檢索結(jié)果。檢索式生成部105將檢索結(jié)果中包含的文件集合群集化,分割成部分集合。顯示控制部106按每個(gè)群集設(shè)置顯示區(qū)域1104,在各顯示區(qū)域1104中顯示群集內(nèi)的文件列表。顯示區(qū)域1104的顯示內(nèi)容與圖2相同。(圖11:動(dòng)作順序步驟5)
顯示控制部106按每個(gè)群集設(shè)置依據(jù)按鈕1106。如果用戶點(diǎn)擊了依據(jù)按鈕1106,則顯示控制部106將在顯示區(qū)域1104內(nèi)選擇的文件的識(shí)別符交給檢索式生成部105。檢索式生成部105生成能夠檢索群集內(nèi)被選擇的文件集合的檢索式。用戶通過(guò)從群集的文件中只選擇必要的文件,能夠按照自己的喜好對(duì)群集中包含的文件列表進(jìn)行修正。(圖11:動(dòng)作順序步驟6)顯示控制部106按每個(gè)群集設(shè)置文本輸入?yún)^(qū)域1103。顯示控制部106將檢索式生成部105生成的每個(gè) 群集的檢索式顯示到文本輸入?yún)^(qū)域1103。(圖11:動(dòng)作順序步驟7)用戶也可以直接修正文本輸入?yún)^(qū)域1103中顯示的檢索式。如果用戶點(diǎn)擊了再檢索按鈕1105,則顯示控制部106取得文本輸入?yún)^(qū)域1103被輸入的檢索式,通過(guò)數(shù)據(jù)通信部107向檢索服務(wù)器12發(fā)送將該檢索式作為檢索條件的檢索請(qǐng)求。檢索服務(wù)器12使用該檢索式實(shí)施檢索,顯示控制部106將該檢索結(jié)果顯示到顯示區(qū)域1104?!磳?shí)施方式7:總結(jié)〉綜上所述,本實(shí)施方式7涉及的檢索式生成裝置10將檢索結(jié)果群集化,按每個(gè)群集顯示檢索結(jié)果。而且,按每個(gè)群集生成能夠檢索各群集中包含的文件的檢索式。由此,用戶能夠容易地掌握每個(gè)群集的特征。另外,本實(shí)施方式7涉及的檢索式生成裝置10可以按每個(gè)群集修正檢索式并進(jìn)行再檢索。由此,用戶能夠按每個(gè)群集獲得與實(shí)施方式I同樣的效果。〈實(shí)施方式8>在本發(fā)明的實(shí)施方式8中,說(shuō)明使用實(shí)施方式I 7中說(shuō)明的檢索式生成裝置10,生成自動(dòng)賦予文件分類碼的規(guī)則的方法。文件分類碼(controlled category)是在將文件按各文件內(nèi)容的特征分類的基礎(chǔ)上,對(duì)各分類賦予的識(shí)別碼。由于各分類中包含的文件大多具有同樣的關(guān)鍵字,所以如果能夠按每個(gè)分類碼生成恰當(dāng)?shù)臋z索式,則可以使用相同的檢索式進(jìn)行檢索的文件屬于相同分類的可能性高。在本實(shí)施方式8中,利用該情況,將檢索式用作分類規(guī)則。檢索式生成部105將已被賦予分類碼C的文件集合(正確答案訓(xùn)練數(shù)據(jù))D作為對(duì)象,生成檢索式し接著,判定通過(guò)生成的檢索式L能夠檢索未被賦予分類碼的文件d (測(cè)試數(shù)據(jù))。如果能夠通過(guò)檢索式L檢索出文件d,則可以預(yù)測(cè)為文件d具有分類碼C。這樣,利用根據(jù)正確答案訓(xùn)練數(shù)據(jù)生成的檢索式L,能夠?qū)y(cè)試數(shù)據(jù)自動(dòng)賦予分類碼。對(duì)文件自動(dòng)分類的方法有很多,但本實(shí)施方式8的優(yōu)點(diǎn)在于能夠自由設(shè)定分類規(guī)則(生成的檢索式)的精度(precision)。而且,由于分類規(guī)則是邏輯式自身,所以用戶易于理解。如果必要,則用戶也能夠?qū)ψ詣?dòng)生成的分類規(guī)則進(jìn)行修正。由于分類規(guī)則是邏輯式的形式、容易判斷,所以修正也容易。圖12是表示自動(dòng)生成的分類規(guī)則的例子的圖。在該例子中,將具有國(guó)際專利分類A61B3“眼睛的檢查裝置;眼睛的診察裝置”這ー IPC碼的1993年公開(kāi)的專利公開(kāi)公報(bào)的集合作為正確答案訓(xùn)練數(shù)據(jù),根據(jù)其自動(dòng)生成了檢索式。如果使用實(shí)施方式I中說(shuō)明的方法,則生成了“(檢眼)+(檢*者)+(眼科*裝置)+ (光學(xué)*拍攝*系統(tǒng))”這ー檢索式??梢詫⒃摍z索式作為分類規(guī)則直接使用,例如對(duì)1994年公開(kāi)的專利公開(kāi)公報(bào)自動(dòng)賦予分類碼。或者,用戶也可以修正分類規(guī)則。
接下來(lái),對(duì)根據(jù)暫時(shí)生成的分類規(guī)則,重新構(gòu)建精度(precision)為某ー值以上的分類規(guī)則的方法進(jìn)行說(shuō)明。文件分類中具有精度(precision)和再現(xiàn)率(recall)等評(píng)價(jià)基準(zhǔn)。例如,在圖12所說(shuō)明的例子中考慮“眼科*裝置”這一分類規(guī)則。再現(xiàn)率是在正確答案數(shù)據(jù)(被分類為A61B3的文件)中,符合“眼科*裝置”的文件的比例。即,表示在“眼科*裝置”下正確答案能夠覆蓋怎樣的程度。精度是正確答案數(shù)據(jù)占符合“眼科女裝置”的所有文件的比例。即,表示“眼科女裝置”是何種程度準(zhǔn)確的分 類規(guī)則。如果是精度接近于100%的分類規(guī)則,則符合該分類規(guī)則的文件可以幾乎無(wú)誤地被賦予目標(biāo)分類碼。由于只要對(duì)于不符合分類規(guī)則的文件,由用戶通過(guò)手動(dòng)作業(yè)賦予分類碼即可,所以能夠削減與分類碼賦予相關(guān)的作業(yè)成本。以下,根據(jù)圖12對(duì)生成具有規(guī)定以上精度的分類規(guī)則的步驟進(jìn)行說(shuō)明。(圖12:分類規(guī)則生成順序步驟I)檢索式生成部105利用在實(shí)施方式I 7中說(shuō)明的步驟,對(duì)構(gòu)成檢索式L的各邏輯積,計(jì)算出訓(xùn)練數(shù)據(jù)中的精度與再現(xiàn)率。這里,設(shè)得到了圖12的上半部分所示的4個(gè)邏輯積“檢眼” “檢*者” “眼科*裝置” “光學(xué)*拍攝*系統(tǒng)”。(圖12:分類規(guī)則生成順序步驟2)用戶將所希望的精度值輸入給檢索式生成裝置10。這里,指定了精度> O. 8。(圖12:分類規(guī)則生成順序步驟3)檢索式生成部105僅抽出精度為O. 8以上的邏輯積,并以邏輯和加以結(jié)合。由此,關(guān)于訓(xùn)練數(shù)據(jù),可以生成具有O. 8以上的精度的檢索式“(檢眼)+(眼科*裝置)”。其中,精度的值使用正確答案訓(xùn)練數(shù)據(jù)計(jì)算。(圖12:分類規(guī)則生成順序步驟4)檢索式生成裝置10將在步驟3中得到的檢索式作為分類規(guī)則提示給用戶。由此,可以指定成為目標(biāo)的精度,自動(dòng)生成分類規(guī)則。如果使用將目標(biāo)精度設(shè)為足夠高而生成的分類規(guī)則,則能夠以足夠的精度自動(dòng)賦予分類碼?!磳?shí)施方式8:總結(jié)〉綜上所述,本實(shí)施方式8涉及的檢索式生成裝置10生成具有被指定以上的精度的檢索式,將其作為文件分類規(guī)則進(jìn)行提示。由此,能夠自動(dòng)地以高精度對(duì)文件賦予分類碼。<實(shí)施方式9>也可以在以上的實(shí)施方式I 8中,將檢索式生成部105配置于檢索服務(wù)器12。另外,在如實(shí)施方式7那樣將檢索結(jié)果群集化的情況下,也可以將實(shí)施群集化處理的功能部與檢索式生成部105獨(dú)立地重新設(shè)置。實(shí)施群集化的功能部可以配置于檢索式生成裝置10,也可以配置于檢索服務(wù)器12。在檢索服務(wù)器12具備群集化功能部的情況下,檢索服務(wù)器12將檢索結(jié)果群集化,將群集(文件集合)的列表發(fā)送給檢索式生成裝置10。以上,基于實(shí)施方式對(duì)本發(fā)明者研究的發(fā)明具體進(jìn)行了說(shuō)明,但本發(fā)明并不限定于上述實(shí)施方式,在不脫離其主g的范圍當(dāng)然能夠進(jìn)行各種變更。另外,上述各構(gòu)成、功能、處理部等可以通過(guò)將它們的全部或者一部分例如以集成電路進(jìn)行設(shè)計(jì),由此作為硬件來(lái)實(shí)現(xiàn),也可以通過(guò)處理器執(zhí)行用于實(shí)現(xiàn)各自的功能的程序,由此作為軟件來(lái)實(shí)現(xiàn)。實(shí)現(xiàn)各功能的程序、表等信息可以保存到存儲(chǔ)器或硬盤等存儲(chǔ)裝置、IC卡、DVD等存儲(chǔ)介質(zhì)中。實(shí)施例[實(shí)施例I]在本發(fā)明的實(shí)施例I中,說(shuō)明針對(duì)實(shí)施方式I中說(shuō)明的檢索式的精度進(jìn)行了評(píng)價(jià)的結(jié)果。為了評(píng)價(jià)精度,使用某個(gè)檢索式L來(lái)實(shí)際檢索文件,井根據(jù)檢索出的文件集合生成檢索式,確認(rèn)是否能夠復(fù)原原來(lái)的檢索式L。其中,在使用了檢索式L的檢索結(jié)果超過(guò)300件的情況下,對(duì)300個(gè)文件取樣實(shí)施了評(píng)價(jià)。首先,以將2個(gè)檢索術(shù)語(yǔ)通過(guò)邏輯積或邏輯和結(jié)合的單純的檢索式進(jìn)行了實(shí)驗(yàn)。該情況下,58個(gè)檢索式中無(wú)法再現(xiàn)的檢索式僅有ー個(gè)。 對(duì)于由三個(gè)以上檢索術(shù)語(yǔ)構(gòu)成的復(fù)雜的檢索式,52個(gè)檢索式中完全復(fù)原的有19個(gè)。例如,“(放熱+(熱*傳導(dǎo))+ (傳*熱))*片村”、“(電纜* (廣播+TV))+CATV”等檢索式完全復(fù)原。對(duì)于此外的33個(gè)檢索式,幾乎在所有的情況下都部分復(fù)原成功。例如,針對(duì)原來(lái)的檢索式L “LED+(發(fā)光* (ニ極管+元件))”,生成了“ LED+發(fā)光”。在部分復(fù)原成功的例子中,絕大多數(shù)是如此以邏輯和結(jié)合的部分不能完全復(fù)原的情況。該主要理由是取樣數(shù)的不足。在先前的例子的情況下,“LED+(發(fā)光* (ニ極管+元件))”的符合件數(shù)超過(guò)了 5萬(wàn)件,但復(fù)原所使用的文件只是其中的300件。部分也無(wú)法復(fù)原的檢索式是符合件數(shù)為數(shù)件以下的檢索式。[實(shí)施例2]在本發(fā)明的實(shí)施例2中,說(shuō)明使用圖12中生成的精度為O. 8以上的分類規(guī)則“(檢眼)+(眼科*裝置)”,對(duì)1994年(訓(xùn)練數(shù)據(jù)的下一年)公開(kāi)的專利公開(kāi)公報(bào)賦予了國(guó)際專利分類A61B3的結(jié)果。在本實(shí)施例2中,以精度94%的高精度賦予了分類碼。但是,由于再現(xiàn)率為59%,所以只對(duì)應(yīng)該賦予分類碼的文件的59%進(jìn)行了賦予。剰余的41 %的文件通過(guò)手動(dòng)或其他方法進(jìn)行分類,但與不使用分類規(guī)則的情況相比,用于實(shí)施賦予作業(yè)的文件數(shù)減少到一半以下。在想要進(jìn)ー步提高自動(dòng)賦予分類碼的精度的情況下,例如只要僅將精度為98%的“檢眼”作為分類規(guī)則而使用即可。另外,也可以根據(jù)自動(dòng)生成的分類規(guī)則,由人施加修正。
權(quán)利要求
1.一種檢索式生成裝置,其特征在于,具備 檢索式生成部,生成檢索條件式,該檢索條件式用于從檢索對(duì)象的文件集合中檢索出由I個(gè)以上的文件構(gòu)成的母集合;和 檢索結(jié)果取得部,取得使用任意的檢索條件式對(duì)上述檢索對(duì)象進(jìn)行檢索后得到的結(jié)果,并輸出給上述檢索式生成部; 上述檢索式生成部, 從上述檢索結(jié)果取得部取得上述檢索結(jié)果,計(jì)算出再現(xiàn)率和精度,所述再現(xiàn)率表示在將由I個(gè)以上的檢索術(shù)語(yǔ)構(gòu)成的邏輯積作為檢索條件式對(duì)上述檢索對(duì)象進(jìn)行了檢索的情況下得到的檢索結(jié)果中包含于上述母集合的文件相對(duì)于上述母集合所占的比例,所述精度表示上述檢索結(jié)果中包含于上述母集合的文件相對(duì)于上述檢索結(jié)果所占的比例, 通過(guò)使用上述再現(xiàn)率和上述精度而構(gòu)建的評(píng)價(jià)式,對(duì)上述邏輯積進(jìn)行評(píng)價(jià), 通過(guò)反復(fù)地將基于上述評(píng)價(jià)式而得到的評(píng)價(jià)值成為最大的上述邏輯積以邏輯和來(lái)結(jié)合,生成以積和標(biāo)準(zhǔn)形式表示的上述檢索條件式。
2.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 上述檢索結(jié)果取得部在上述檢索式生成部計(jì)算上述精度時(shí),根據(jù)上述檢索對(duì)象的檢索索引中記錄的每個(gè)檢索術(shù)語(yǔ)的符合件數(shù),取得上述邏輯積中的各檢索術(shù)語(yǔ)的符合件數(shù), 上述檢索式生成部使用上述符合件數(shù)來(lái)近似上述精度。
3.根據(jù)權(quán)利要求2所述的檢索式生成裝置,其特征在于, 上述檢索式生成部, 使用上述符合件數(shù)相對(duì)于上述檢索對(duì)象中的所有文件數(shù)的比,推定每個(gè)檢索術(shù)語(yǔ)的符合概率, 使用推定出的上述符合概率來(lái)近似上述精度。
4.根據(jù)權(quán)利要求3所述的檢索式生成裝置,其特征在于, 上述檢索式生成部通過(guò)使每個(gè)檢索術(shù)語(yǔ)的推定出的上述符合概率相乘,來(lái)推定將上述邏輯積作為檢索條件對(duì)上述檢索對(duì)象進(jìn)行了檢索時(shí)的符合件數(shù),并使用該符合件數(shù)來(lái)近似上述精度。
5.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部在計(jì)算上述再現(xiàn)率或者上述精度中的至少一個(gè)時(shí),通過(guò)查詢?cè)趯儆谏鲜瞿讣系母魑募臋z索索引中記錄的、包含在上述各文件內(nèi)的檢索術(shù)語(yǔ)的列表,取得上述檢索結(jié)果中的包含于上述母集合的文件的數(shù)量。
6.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部, 對(duì)從上述母集合取樣后得到的文件集合計(jì)算出上述再現(xiàn)率或者上述精度中的至少一個(gè), 通過(guò)使用該計(jì)算結(jié)果和上述取樣的取樣率而構(gòu)建的評(píng)價(jià)式,對(duì)上述邏輯積進(jìn)行評(píng)價(jià)。
7.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 上述檢索結(jié)果取得部取得將上述邏輯積作為檢索條件對(duì)上述檢索對(duì)象進(jìn)行了檢索的情況下得到的檢索結(jié)果中所包含的各文件的權(quán)重系數(shù), 上述檢索式生成部使用上述權(quán)重系數(shù)計(jì)算出上述再現(xiàn)率或者上述精度中的至少一個(gè)。
8.根據(jù)權(quán)利要求7所述的檢索式生成裝置,其特征在于, 上述檢索式生成部將包含于上述母集合中的文件的權(quán)重系數(shù)中最小的權(quán)重系數(shù),近似作為不包含于上述母集合中的文件的權(quán)重系數(shù)。
9.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 具備對(duì)上述檢索結(jié)果取得部所取得的檢索結(jié)果進(jìn)行顯示的顯示部, 上述檢索式生成部生成用于獲得上述檢索結(jié)果的上述檢索條件式,使該檢索條件式與上述檢索結(jié)果一起顯示在上述顯示部上。
10.根據(jù)權(quán)利要求9所述的檢索式生成裝置,其特征在于, 上述顯示部具有用于對(duì)上述檢索式生成部所生成的上述檢索條件式進(jìn)行修正的輸入欄, 上述檢索結(jié)果取得部使用上述輸入欄中被輸入的修正后的檢索條件式,取得對(duì)上述文件進(jìn)行檢索后得到的結(jié)果,并顯示在上述顯示部上。
11.根據(jù)權(quán)利要求9所述的檢索式生成裝置,其特征在于, 上述檢索式生成部將上述檢索結(jié)果取得部所取得的檢索結(jié)果群集化, 上述顯示部按通過(guò)上述群集化而得到的每個(gè)群集來(lái)顯示上述檢索結(jié)果。
12.根據(jù)權(quán)利要求11所述的檢索式生成裝置,其特征在于, 上述顯示部按通過(guò)上述群集化而得到的每個(gè)群集具有用于對(duì)上述檢索式生成部所生成的上述檢索條件式進(jìn)行修正的輸入欄, 上述檢索結(jié)果取得部使用上述輸入欄中被輸入的修正后的檢索條件式,取得對(duì)上述文件進(jìn)行檢索后得到的結(jié)果,并按通過(guò)上述群集化而得到的每個(gè)群集使上述顯示部顯示該結(jié)果。
13.根據(jù)權(quán)利要求I所述的檢索式生成裝置,其特征在于, 上述檢索式生成部接受上述精度的指定值作為輸入,生成具有上述指定值以上的上述精度的上述檢索條件式。
14.一種檢索系統(tǒng),其特征在于, 具有權(quán)利要求I所述的檢索式生成裝置;和 根據(jù)任意的檢索條件式對(duì)上述檢索對(duì)象進(jìn)行檢索的檢索服務(wù)器, 上述檢索結(jié)果取得部從上述檢索服務(wù)器取得使用上述檢索條件式對(duì)上述檢索對(duì)象進(jìn)行檢索后得到的結(jié)果。
15.—種檢索式生成方法,其特征在于,具有 檢索式生成步驟,生成檢索條件式,該檢索條件式用于從檢索對(duì)象的文件集合中檢索出由I個(gè)以上的文件構(gòu)成的母集合;和 檢索結(jié)果取得步驟,取得使用任意的檢索條件式對(duì)上述檢索對(duì)象進(jìn)行檢索后得到的結(jié)果; 在上述檢索式生成步驟中, 通過(guò)上述檢索結(jié)果取得步驟取得上述檢索結(jié)果,計(jì)算出再現(xiàn)率和精度,所述再現(xiàn)率表示在將由I個(gè)以上的檢索術(shù)語(yǔ)構(gòu)成的邏輯積作為檢索條件式對(duì)上述檢索對(duì)象進(jìn)行了檢索的情況下得到的檢索結(jié)果中包含于上述母集合的文件相對(duì)于上述母集合所占的比例,所述精度表示上述檢索結(jié)果中包含于上述母集合的文件相對(duì)于上述檢索結(jié)果所占的比例,通過(guò)使用上述再現(xiàn)率和上述精度而構(gòu)建的評(píng)價(jià)式,對(duì)上述邏輯積進(jìn)行評(píng)價(jià), 通過(guò)反復(fù)地將基于上述評(píng)價(jià)式而得到的評(píng)價(jià)值成為最大的上述邏輯積以邏輯和來(lái)結(jié)合,生成以積和標(biāo)準(zhǔn)形式表示的上述檢索條件式。
16.根據(jù)權(quán)利要求15所述的檢索式生成方法,其特征在于, 具有接受上述精度的指定值作為輸入的步驟, 在上述檢索式生成步驟中,生成具有上述指定值以上的上述精度的上述檢索條件式。
全文摘要
本發(fā)明涉及檢索式生成裝置、檢索系統(tǒng)、檢索式生成方法,用于提供一種準(zhǔn)確且高效地生成成為概念檢索的依據(jù)的檢索式的技術(shù)。本發(fā)明涉及的檢索式生成裝置構(gòu)建以將檢索術(shù)語(yǔ)的邏輯積通過(guò)邏輯和結(jié)合的積和標(biāo)準(zhǔn)形式來(lái)表示的檢索條件式,將再現(xiàn)率和精度作為基準(zhǔn),對(duì)該檢索條件式進(jìn)行評(píng)價(jià)。接著,反復(fù)地將檢索術(shù)語(yǔ)的邏輯積中評(píng)價(jià)值為最大的邏輯積以邏輯和結(jié)合,由此來(lái)構(gòu)建檢索條件式。
文檔編號(hào)G06F17/30GK102622389SQ20111024098
公開(kāi)日2012年8月1日 申請(qǐng)日期2011年8月22日 優(yōu)先權(quán)日2011年1月28日
發(fā)明者巖山真 申請(qǐng)人:株式會(huì)社日立制作所
產(chǎn)品知識(shí)
行業(yè)新聞
- 產(chǎn)科破膜組件的制作方法【專利摘要】本實(shí)用新型涉及一種產(chǎn)科破膜組件,中間隔板將插入筒分隔成前、后兩段,在插入筒的前段內(nèi)填充有緩沖液體,在中間隔板的后側(cè)上設(shè)有儲(chǔ)液腔室,在所述插入筒的前段的端口內(nèi)滑動(dòng)安裝有一端開(kāi)口且中空的不銹鋼頂套,在不銹鋼頂套
- 一種婦科沖洗給藥器的制造方法【專利摘要】本實(shí)用新型涉及一種婦科治療器具,具體涉及一種婦科沖洗給藥器。包括用于裝清水的瓶體,瓶體的側(cè)壁上安裝有加壓泵,瓶體的瓶口處安裝有密封塞,密封塞上開(kāi)設(shè)有用于穿過(guò)連接管的開(kāi)口,連接管的另一端插于沖洗管內(nèi),沖
- 專利名稱:利用熱滯后蛋白改良低溫外科中的組織破壞的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及以前與低溫外科不相關(guān)的領(lǐng)域,以及熱滯后蛋白(Thermalhysteresis proteins)的性質(zhì)和利用。背景技術(shù):冷凍外科作為一種臨床醫(yī)學(xué)方法已獲得廣泛的
- 專利名稱:一種小分子mek蛋白激酶抑制劑的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及一種小分子MEK蛋白激酶抑制劑、其制備方法及其在用作制備治療腫瘤、風(fēng)濕性關(guān)節(jié)炎和其他疾病的藥物上的用途。背景技術(shù):ERKMAH(信號(hào)轉(zhuǎn)導(dǎo)途徑與細(xì)胞增生、存活、分化、凋亡等
- 專利名稱:用于治療淺Ⅱ度燒傷的中藥藥膜劑及制備方法技術(shù)領(lǐng)域:本發(fā)明涉及中醫(yī)藥技術(shù)領(lǐng)域,尤其涉及一種用于治療淺II度燒傷的中藥藥膜劑。背景技術(shù):燒傷是一種較為常見(jiàn)的意外傷害,是門診工作中較為常見(jiàn)的皮膚熱損傷,包括熱燙傷和火焰燒傷,輕則局部熱盛
- 一種具有自鎖式可調(diào)支架的頸托的制作方法【專利摘要】本實(shí)用新型公開(kāi)了一種具有自鎖式可調(diào)支架的頸托,包括胸部支架、護(hù)顎和自鎖式可調(diào)支架,所述胸部支架為U形結(jié)構(gòu),其兩側(cè)開(kāi)有導(dǎo)向槽,所述自鎖式可調(diào)支架包括兩個(gè)分別與所述護(hù)顎以及所述胸部支架連接的支撐
- 專利名稱:一種牙痛藥液及其制造方法技術(shù)領(lǐng)域:本發(fā)明涉及一種牙痛藥液及其制造方法。目前,我國(guó)牙痛病的發(fā)病率相當(dāng)高,幾乎人人都有。對(duì)成人的牙痛(有時(shí)俗稱風(fēng)火牙)無(wú)速效或特效藥,對(duì)反復(fù)發(fā)作的牙痛等大都采用消炎止痛,麻醉止痛,更有甚者將采用摘除止痛
- 豬場(chǎng)用臭氧消毒車的制作方法【專利摘要】本實(shí)用新型公開(kāi)了一種豬場(chǎng)用臭氧消毒車,所述的臭氧消毒車主要包括車體、臭氧溶水桶、臭氧發(fā)生機(jī)、噴霧裝置、連接管道;車體設(shè)置把手和萬(wàn)向輪,車體的上部設(shè)置臭氧溶水桶和臭氧發(fā)生機(jī),臭氧溶水桶靠近把手一側(cè)設(shè)置有電
- 培養(yǎng)基消毒架的制作方法【專利摘要】本實(shí)用新型涉及一種培養(yǎng)基消毒架,由消毒架和托盤組成,所述消毒架包括四根位于頂角處的支撐桿,在支撐桿之間設(shè)有縱向排列的若干個(gè)日字形的支撐臺(tái),在該支撐臺(tái)上能夠擺放放置培養(yǎng)瓶的托盤,在消毒架的底部設(shè)有四個(gè)與消毒爐
- 專利名稱:一種治療慢性肝病的藥物的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及一種治療慢性肝病的藥物,特別涉及一種治療慢性肝病的中藥組合物。背景技術(shù): 慢性肝病,是危害人們健康的常見(jiàn)疾病,具有較高的發(fā)病率。為此,許多專利文獻(xiàn)公開(kāi)了各自的技術(shù),以滿足人們的需
- 專利名稱::尼美舒利緩釋組合物的制作方法技術(shù)領(lǐng)域::本發(fā)明涉及一種尼美舒利緩釋組合物,該組合物涉及利用適當(dāng)?shù)妮o料與尼美舒利組合,延緩尼美舒利藥物的釋出,可制成一天一次的劑型。背景技術(shù)::尼美舒利為非甾體抗炎藥,具有解熱和鎮(zhèn)痛活性。治療作用主
- 專利名稱:一種治療結(jié)膜炎的中藥組合物及其制備方法和應(yīng)用的制作方法技術(shù)領(lǐng)域:本發(fā)明屬于中醫(yī)藥技術(shù)領(lǐng)域,具體涉及一種治療結(jié)膜炎的中藥組合物。背景技術(shù):結(jié)膜炎(conjunctivitis)是眼科的常見(jiàn)病,是結(jié)膜組織在外界和機(jī)體自身因素的作用而發(fā)
- 專利名稱:皂苷化合物及其制備方法與在制備免疫佐劑中的應(yīng)用的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及藥物化學(xué),具體涉及從中藥金鐵鎖中提出分離得到的皂苷化合物及其制備方法與在免疫佐劑中的應(yīng)用。背景技術(shù):隨著分子生物學(xué)的發(fā)展,第二代疫苗多以純化重組蛋白、合成
- 專利名稱:一組溫補(bǔ)脾陽(yáng)組合藥片的制作方法技術(shù)領(lǐng)域:本 發(fā)明涉及一組溫補(bǔ)脾陽(yáng)組合藥片。主要由下列藥物組成白術(shù)炒、大黃炒焦、附子、干姜、人參、甘草炎、兀胡炎、積實(shí)炒、白及。二、技術(shù)背景功效溫補(bǔ)脾陽(yáng),攻下冷積。主治脾陽(yáng)不足,冷積內(nèi)停證。便秘或久痢
- 專利名稱:一種超細(xì)復(fù)合纖維膜、其制備方法及其用途的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及一種可生物降解及可生物吸收的術(shù)后防粘連的超細(xì)復(fù)合纖維膜、其制備方法及其用途,尤其涉及一種聚乙丙交酯(PLGA)和聚丙交酯-b-聚乙二醇(PELA)制備的超細(xì)復(fù)合纖
- 一種血糖檢測(cè)專用托盤的制作方法【專利摘要】本實(shí)用新型公開(kāi)一種血糖檢測(cè)專用托盤,包括托盤本體和把手,托盤本體設(shè)有的隔板將托盤本體分割成分為無(wú)菌區(qū)和垃圾區(qū),無(wú)菌區(qū)依次設(shè)有酒精盒、棉簽盒、放置新的采血針的針盒、存放血糖檢測(cè)儀和新試紙的方形盒,垃圾
- 專利名稱:治療慢性腎炎的一種中藥制劑的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及治療慢性腎炎的一種中藥制劑,是一種治療慢性腎炎以中草藥為原料的中藥制劑。屬于中藥領(lǐng)域。背景技術(shù): 慢性腎小球腎炎(簡(jiǎn)稱慢性腎炎)是由多種原因、多種病理類型組成的原發(fā)于腎小球的
- 專利名稱:含有木脂素苷Schizandriside的藥物組合物及其在制藥中的應(yīng)用的制作方法技術(shù)領(lǐng)域:本發(fā)明屬于藥物技術(shù)領(lǐng)域,具體地,涉及以式(I)的木脂素苷Schizandriside (I)為活性成分的藥物組合物,其制備方法以及其在制備抗
- 專利名稱:折柄式針灸針的制作方法技術(shù)領(lǐng)域:本實(shí)用新型涉及一種中醫(yī)針灸器械,具體涉及一種折柄式針灸針。 背景技術(shù):針灸是一種傳統(tǒng)的中醫(yī)治療方法,它以中醫(yī)基礎(chǔ)理論為指導(dǎo),以經(jīng)絡(luò)腧穴為基礎(chǔ), 通過(guò)針刺或艾灸方法對(duì)人體經(jīng)絡(luò)、腧穴的刺激,發(fā)揮疏通經(jīng)絡(luò)
- 專利名稱:一種治療支氣管炎的膏藥的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及治療支氣管炎藥物,具體涉及一種治療支氣管炎的膏藥。背景技術(shù):近年來(lái),由于環(huán)境的污染,哮喘性支氣管炎的發(fā)病率成居高不下的狀態(tài),支氣管炎是一個(gè)較頑固的病癥,反復(fù)發(fā)作,醫(yī)生在治療時(shí),為
- 專利名稱:面部按摩器的制作方法技術(shù)領(lǐng)域:本發(fā)明涉及一種按摩器,尤其涉及一種面部按摩器。背景技術(shù):現(xiàn)有的按摩器均為頸部、背部、足底按摩,無(wú)法滿足面部保養(yǎng)的需要。發(fā)明內(nèi)容本發(fā)明的目的旨在提供一種面部按摩器。本發(fā)明的目的可通過(guò)以下方案來(lái)加以實(shí)現(xiàn)本