非結(jié)構(gòu)化信息管理和搜索的發(fā)展現(xiàn)狀_第1頁
非結(jié)構(gòu)化信息管理和搜索的發(fā)展現(xiàn)狀_第2頁
非結(jié)構(gòu)化信息管理和搜索的發(fā)展現(xiàn)狀_第3頁
非結(jié)構(gòu)化信息管理和搜索的發(fā)展現(xiàn)狀_第4頁
非結(jié)構(gòu)化信息管理和搜索的發(fā)展現(xiàn)狀_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

非構(gòu)造化信息管理和搜索的開展現(xiàn)狀1關(guān)鍵詞全文檢索技術(shù)日顯局促,亟待打破世界范圍的正以目前每9個月增加一倍的速度飛速開展,并還將以指數(shù)速度繼續(xù)增加。而另一方面,在從eb或數(shù)據(jù)倉庫中找到你所需要的內(nèi)容卻并非進(jìn)展迅速,雖然檢索到相關(guān)結(jié)果的速度正以兆兆字節(jié)甚至十倍于此的速度增加。據(jù)2022年5月NielsenNranGrup發(fā)布的2022eb可用性調(diào)查結(jié)果顯示,所有用戶〔包括偶然使用或經(jīng)歷豐富的用戶〕對搜索結(jié)果滿意的次數(shù)百分比僅為42%,經(jīng)歷豐富的用戶這一數(shù)字可以到達(dá)50%[1]。最糟糕的搜索經(jīng)歷常發(fā)生在使用企業(yè)網(wǎng)站點(diǎn)搜索而不是使用巨型搜索引擎的時候。另據(jù)FrresterResearh的統(tǒng)計說明,非構(gòu)造化信息的數(shù)量正在以每年200%的速度增長。一般員工大約要花費(fèi)35%的時間尋找工作所需的非構(gòu)造化信息[2]。由此可見,搜索引擎必須采取措施使自己變得更為聰明,同時能更準(zhǔn)確全面的為大多數(shù)用戶帶來令人滿意的搜索結(jié)果。我們需要有一個工具,能同管理構(gòu)造化信息一樣,有效地管理我們的非構(gòu)造化信息。2有望終結(jié)傳統(tǒng)搜索形式的Autny的“樣板工程〞Blinkx英德中文版已經(jīng)推出2022年7月,位于美國舊金山的創(chuàng)業(yè)公司Blinkx推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索〞或“語義搜索〞的功能。也就是說,當(dāng)用戶提出類似“搜索引擎將來開展趨勢如何〞這樣的搜索需求時,搜索引擎可以給出相關(guān)內(nèi)容的搜索列表,而不會像傳統(tǒng)搜索工具那樣只是機(jī)械的給出包含“搜索〞、“引擎〞、“將來〞、“開展〞、“趨勢〞等詞匯但卻遠(yuǎn)離該主題的文章。Blinkx不僅可以搜索文本內(nèi)容,還可以搜索電影電視等多媒體內(nèi)容,不僅可以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機(jī)和局域網(wǎng)上的內(nèi)容。Blinkx同時還可以搜索不同的文本格式內(nèi)容,如Text、rd、Exel、PPT、PDF以及各種數(shù)據(jù)庫中的數(shù)據(jù)格式。有媒體把這種搜索方式稱為“智能搜索〞,這樣的搜索引擎一直以來都是人們的夢想,或許Autny就是下一代搜索引擎的開端也未可知。當(dāng)然Autny并不只局限于桌面搜索這個狹窄的領(lǐng)域,它不只是代表一系列產(chǎn)品,也不只是一家公司的名字,最主要的是它代表著一種搜索理念和技術(shù)[3]。一旦它成功,桌面搜索的格局自然也會跟著發(fā)生翻天覆地的變化。假如安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出如今rd、utlk等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統(tǒng)會自動分析這個文檔,然后自動從本機(jī)或網(wǎng)絡(luò)上抓取相關(guān)文章或鏈接,以供用戶參考。它還可以及時提供與文章內(nèi)容相關(guān)的新聞、產(chǎn)品信息、視頻內(nèi)容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關(guān)鍵詞〞,Blinkx通過對這篇文章進(jìn)展分析,會給出與這篇文章內(nèi)容最接近的網(wǎng)絡(luò)鏈接或本機(jī)文檔[4]。這無疑給需要處理大量數(shù)據(jù)的個人和企業(yè)提供了宏大便利。2022年元旦剛過Blinkx進(jìn)入中國市場,其中文測試版已經(jīng)“開工〞。目前已經(jīng)在國內(nèi)某數(shù)據(jù)中心建立了一個試驗(yàn)平臺,大約有30多臺效勞器正在運(yùn)行著Blinkx的后臺系統(tǒng)[5]。Autny公司是Blinkx公司的股東之一,Blinkx的核心技術(shù)也來自Autny,因?yàn)檫@種親密關(guān)系,Blinkx被認(rèn)為是Autny的“樣板工程〞。此前,Autny一直像汽車發(fā)動機(jī)一樣隱藏在幕后。Autny雖然在公眾中的知名度不太大,但在商業(yè)應(yīng)用領(lǐng)域中卻名聲顯赫,并在政府、國防、新聞、金融、電信、教育等領(lǐng)域擁有大量中堅客戶。而且,Autny還是一個“歷史悠久〞的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現(xiàn)金。3Autny的形式識別技術(shù),可以幫助用戶發(fā)現(xiàn)一些事前不知道的相關(guān)信息目前,人類研究的信息搜索技術(shù)有四個方向:關(guān)鍵字搜索,形式識別,語義分析,神經(jīng)網(wǎng)絡(luò)。除了關(guān)鍵詞搜索比擬成熟外,其他三項(xiàng)技術(shù)還處于待開發(fā)狀態(tài)。形式識別的代表者就是Autny,語義分析和神經(jīng)網(wǎng)絡(luò)兩個技術(shù)方向目前尚無壓倒性的代表者,一年半載不會有打破性的研究成果。所以,形式識別就成了目前比擬先進(jìn)的信息搜索技術(shù)。采用“形式識別〞搜索方法,可通過判別相關(guān)識別度的上下來對數(shù)據(jù)進(jìn)展檢索,可以防止傳統(tǒng)“關(guān)鍵詞檢索〞造成的漏檢情況的發(fā)生。比方一篇文章里假如有“大海〞這個詞,這篇文章有可能和企鵝有關(guān),但是“大海〞這個詞用在很多不同的地方,有可能文章講的是別的內(nèi)容。但是假如一篇文章里有“大海〞、“南極〞、“黑色〞、“白色〞、“不會飛〞、“羽毛〞、“下蛋〞、“石油〞、“泄露〞等這些詞,這篇文章是在議論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝〞這個詞,但是很多相關(guān)度較低的詞出如今一起就會帶來很高的相關(guān)度,并且缺少某個描繪詞對其產(chǎn)生的結(jié)果影響微乎其微。假如說傳統(tǒng)的“關(guān)鍵字〞搜索方法為“searh〞〔搜索〕的話,autny采用的“形式識別〞方法那么應(yīng)該稱為“disver〞〔發(fā)現(xiàn)〕,因?yàn)樗梢宰層脩粽业揭恍┦虑八麄儾恢赖男畔6]。Autny產(chǎn)品中提供的“聚類〞功能正是“從搜索到發(fā)現(xiàn)〞的最正確表現(xiàn)。目前,Autny在國外比擬成功的應(yīng)用案例集中在媒體、政府機(jī)構(gòu)、金融和信息產(chǎn)業(yè)等需要集中處理大量非構(gòu)造化數(shù)據(jù)的領(lǐng)域。2022年3月,Autny進(jìn)入中國市場,目前主要集中在電信和政府市常Autny追求建立符合企業(yè)內(nèi)部數(shù)據(jù)管理需求的平臺,可將放在不同位置的不同類型的數(shù)據(jù)進(jìn)展有效梳理。Autny曾經(jīng)在美國平安局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應(yīng)用[7]。對于網(wǎng)絡(luò)上出現(xiàn)的大量的有害信息,Autny可以做到事前發(fā)現(xiàn),從而幫助政府機(jī)構(gòu)采取及時地反響。例如,政府有關(guān)部門要打擊網(wǎng)上非法買賣違禁藥物,使用“搖頭丸〞、“興奮劑〞等關(guān)鍵詞搜索出來的內(nèi)容多數(shù)是關(guān)于藥物危害、打擊犯罪等方面的正面文章,而出現(xiàn)“興奮〞、“購置〞、“單價〞等關(guān)鍵詞的文章,那么與非法買賣違禁藥物的相關(guān)度最高。通過這種非關(guān)鍵詞搜索的“形式識別〞搜索,政府監(jiān)控部門可以有效打擊日益猖獗的網(wǎng)上犯罪。所以政府機(jī)構(gòu)和一些需要對信息進(jìn)展監(jiān)控的機(jī)構(gòu)是該系統(tǒng)在中國的潛在市常4Autny的技術(shù)特點(diǎn)和優(yōu)勢分析Autny軟件設(shè)計的原那么是無需用戶改變已有的使用習(xí)慣,甚至無需改變已有的用戶界面,它支持所有傳統(tǒng)的檢索和設(shè)置方式,包括關(guān)鍵詞、邏輯語言、布爾語句等,同時提供應(yīng)用戶更多、更簡潔的定義方法,如對所需信息的自然語言描繪、文章概念的定義,還可以通過反響的文章作為例子來訓(xùn)練個人聚焦和頻道。此外,它可以通過自身軟件架構(gòu)的靈敏性去適應(yīng)已有的系統(tǒng)架構(gòu),嵌入到已有的應(yīng)用中去,在用戶熟悉的界面之下提供新的功能。Autny中最關(guān)鍵的局部就是它的動態(tài)推理引擎〔DynaiReasningEngine,簡稱DRE〕,其中信息的概念分析、內(nèi)容提娶概念形式識別、相關(guān)度計算等關(guān)鍵工作都是由該動態(tài)推理引擎完成。當(dāng)用戶發(fā)出搜索指令后,它可以通過相關(guān)方法從互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、終端計算機(jī)等不同位置的信息源中找到與用戶要求最匹配的信息[8]。它的技術(shù)特點(diǎn)主要有如下幾點(diǎn):4.1自動內(nèi)容綜合和精煉Autny能操作的信息同樣包括各種構(gòu)造化、半構(gòu)造化和非構(gòu)造化數(shù)據(jù),如RDBS的表格、LtusNtes等構(gòu)造化數(shù)據(jù),以及HTL頁面、rd文檔、電子表格、電子郵件非構(gòu)造化數(shù)據(jù)等。而且它可以綜合及理解豐富的多媒體內(nèi)容,包括音頻、視頻、圖像文件等。綜Autny可以自動綜合來自200多種不同格式數(shù)據(jù)源的內(nèi)容。所有綜合后的文件如有任何改動都可以在Autny的根本構(gòu)造和數(shù)據(jù)源之間保持同步。4.2個性化操作Autny的自動建檔功能可以準(zhǔn)確理解個人和企業(yè)用戶的使用習(xí)慣和興趣愛好,并能進(jìn)展追蹤。根據(jù)直接檔案和隱含檔案可以生成每個用戶的多側(cè)面概念型檔案,它們可以自動追隨用戶當(dāng)前的興趣,而無需用戶屢次填寫任何形式的表格。Autny自動的個性化解決方案可以將用戶與有共同興趣的檔案或有間接關(guān)聯(lián)的檔案匹配起來。4.3信息自動分類、聚類定義、索引Autny獨(dú)有的自動信息聚類防止了手工分類的費(fèi)事,可以將相關(guān)網(wǎng)站信息進(jìn)展全自動分類,能實(shí)時、客觀地反映每個科學(xué)門類的信息變化,這與其他的模板式自動分類機(jī)制有著本質(zhì)的區(qū)別[9]。Autny的架構(gòu)可以識別信息之間的主要關(guān)系,從而實(shí)現(xiàn)內(nèi)容間的穿插索引對照,無論是什么文檔,Autny都可以在操作層識別出與其相關(guān)聯(lián)的資料。此外,Autny還可以對內(nèi)容中最主要的概念進(jìn)展總結(jié),可以根據(jù)原始查詢的上下文環(huán)境進(jìn)展總結(jié),并且將最適用的動態(tài)摘要提交給指定需求。最關(guān)鍵的是Autny的這一切工作都無需人工干預(yù)自動進(jìn)展,對企業(yè)應(yīng)用來說,這一點(diǎn)相當(dāng)有吸引力。4.4主動匹配和信息地圖像涉及平安方面的應(yīng)用可能有非常廣泛的信息搜索需求,從網(wǎng)站上最酷的新聞到剛剛播放的電視畫面,都可能與平安問題相關(guān)。利用Autny的主動匹配功能,可以在用戶日常工作中充分利用整個企業(yè)的信息系統(tǒng)為各個相關(guān)部門的相關(guān)人員提供有價值的信息。主動匹配可以將典型的文檔或者以數(shù)字為中心的用戶界面轉(zhuǎn)變成以任務(wù)為導(dǎo)向的智能界面,也就是說它能自動識別用戶當(dāng)前的問題,并確定相關(guān)信息。Autny還可以自動生成二維或三維的信息圖,將某一時間段的所有信息通過形象的圖像展如今用戶面前,幫助用戶準(zhǔn)確、及時地把握世界各地的最新資訊。例如它的最新功能可以跟蹤一系列的郵件信息,告知檢測者每個郵件的流向和被轉(zhuǎn)發(fā)目的。它還可以將連續(xù)的信息圖生成信息走勢圖,觀察出多個時間段的信息走勢,從而用戶能一眼看出某一個階段內(nèi)的信息開展趨勢。這是任何其他搜索系統(tǒng)目前還無法提供的功能。5企業(yè)非構(gòu)造化信息搜索的商機(jī),引得眾多IT巨頭紛紛參加搜索戰(zhàn)團(tuán),處理非構(gòu)造化信息的桌面搜索形式成為競爭焦點(diǎn)企業(yè)網(wǎng)絡(luò)的搜索比網(wǎng)絡(luò)的搜索復(fù)雜很多,企業(yè)信息通常是以各種不同的格式〔如電子表格、PDF、HT網(wǎng)頁,甚至多媒體文件〕存儲在各個不同的地方。同時,企業(yè)客戶要有可靠的存儲系統(tǒng),還有協(xié)作工具、平安工具等。所以企業(yè)搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的搜集和關(guān)聯(lián)。企業(yè)非構(gòu)造化信息搜索的商機(jī),引得眾多IT巨頭紛紛參加搜索戰(zhàn)團(tuán),處理非構(gòu)造化信息的桌面搜索形式成為競爭焦點(diǎn)。世界頭號軟件廠商的微軟、IB、Autny、Yah、AL等和Ggle正在開展直接的競爭,于2022年末2022年初紛紛推出了各自的企業(yè)搜索產(chǎn)品。【參考文獻(xiàn)】1DanFarber.追求更好的搜索結(jié)果.ZDNethina

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論