




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
項目背景項目目標及內容項目實施與成果項目中遇到的問題項目總結項目名稱:專利信息處理與分析系統研發之歐專局專利信息解析與
系統開發任務提出者:
技術項目承擔單位:
科技大學計算機系數據分析課題組項目組成員:,,,,1.總項目開發目標數據分析結果(圖、表)后續數據數據庫國家數據庫DII(已完成)SIPOEPO
(DOCDB、
INPADOC)后續數據DII數據庫導入更新系統SIPO數據庫導入更新
系統EPO數據庫導入更新系統相關系統專利信息分析工具數據標引工具一維分析
二維分析
擴展接口《專利信息處理與分析系統研發》項目結構示意圖2.本部分項目目標歐專局專利數據文件(DOCDB、INPADOC)解析、 、重構等處理SQL
Server關系型數據庫中專利數據3.本部分項目研究內容1、研究用戶需求,制定歐專局專利數據庫2、研究歐專局專利數據的結構特點,對數據進行處理3、研究歐專局專利數據庫的導入、更新規則,對數據進行導入、更新1.項目組成部分INPADOC數據導入INPADOC數據更新形成DOCDB數據更新DOCDB數據導入歐專局專利數據解析與 系統應用程序主界面導入:將數據文件中的數據導入到數據庫中的過程更新:將中間數據庫的數據導入到總數據庫中的過程共294個字段DOCDB數據文件的結構特點:樹形結構,層次深,節點和屬性繁多,結構復雜節點和屬性具有不確定性:數目、是否存在等特殊字符多日期形式不
、不規范存在很多不可預知的錯誤導致:解析與數據庫結構難以確定解析與
:規特殊字符的不確定性:從LINQ
to
XML改為MSXML樹形結構的復雜與不確定性:多次修改則日期節點的不
不規范性:多次修改對日期的處理方式錯誤的不可預知性:反復測試查錯、反復修改數據庫表主鍵的確定:23個表:PUB_NO+PUB_COUNTRY+PUB_KIND+PUB_DATE+特征字段24個表:修改某些表主鍵為ID,增加了
_Info24個表:前兩個表PUB作為主鍵,其余的表ID作為主鍵26個表:前兩個表主鍵改為PUB+PUB_DATE,增加了Dealed_Data_Info,Deletes_Record_Info數據庫表結構的更改:數據庫表的字段也隨著新問題的發現不斷增減、修改等的基直到5月26日,數據庫結構才相對完善。由于數據庫表數目多、字段數目多,而且數據庫結構是解析與礎,所以每一次修改都比較費時費力。數據庫表主鍵的確定:23個表:PUB_NO+PUB_COUNTRY+PUB_KIND+PUB_DATE+特征字段24個表:修改某些表主鍵為ID,增加了
_Info24個表:前兩個表PUB作為主鍵,其余的表ID作為主鍵26個表:前兩個表主鍵改為PUB+PUB_DATE,增加了Dealed_Data_Info,Deletes_Record_Info數據庫表結構的更改:數據庫表的字段也隨著新問題的發現不斷增減、修改等的基直到5月26日,數據庫結構才相對完善。由于數據庫表數目多、字段數目多,而且數據庫結構是解析與礎,所以每一次修改都比較費時費力。規則:直接提取節點值IPC_TEXT:<exch:bibliographic-data><exch:classification-ipc><text>篩選記錄篩選:PUB_KIND等節點篩選:EPO_APP_NO<exch:application-reference
data-format="epodoc">拆分IPCR,IPCR_INFO等重構IPC_ALL,ASSIGNEE,INVENTOR等規則:直接提取節點值IPC_TEXT:<exch:bibliographic-data><exch:classification-ipc><text>篩選記錄篩選:PUB_KIND等節點篩選:EPO_APP_NO<exch:application-reference
data-format="epodoc">拆分IPCR,IPCR_INFO等重構IPC_ALL,ASSIGNEE,INVENTOR等導入規則:歷史數據導入直接導入更新數據導入1、duplicate的情況非duplicate情況:PUB唯一標志一條專利記錄duplicate情況:PUB、PUB_DATE唯一標志一條專利記錄2、同一個XML文件中是否有重復記錄3、數據庫是否有相同記錄4、本條記錄的STATUS是否為D或者DV導入規則:更
則的確定PUB同,比較PUB_DATE加了BATCH字段,PUB同,比較BATCHDuplicate的確定DOCDB導入數據解析提取節點值篩選拆分、重構歷史 更新數據 數據導入 導入Duplicate情況Status情況重復記錄情況功能圖:數據庫創建解壓縮、批處理日志記錄更則:與更新數據的導入相同1、每處理一條記錄提交一條:LINQ技術缺點:處理速度慢,而且隨著數據量增加,速度越來越慢優點:可以準確記錄每條記錄處理的情況速度:100條每分鐘(歷史數據,空庫)2、處理完一個數據文件,一次全部提交:LINQ技術缺點:導入過程中,用戶無法參與;如果某條記錄導入失敗,整個數據文件的記錄都不會導入數據庫,浪費時間;更新數據導入時無法處理主鍵重復的問題;無法準確記錄每條記錄的導入情況優點:處理速度很快速度:2000條每分鐘(歷史數據,空庫)3、使用
過程和全文索引進行提交缺點:處理速度很慢優點:可以準確記錄每條記錄處理的情況;可以滿足更新數據導入的各種規則速度:60條每分鐘(空庫)中間結論:經過比較,LINQ技術提交速度比
過程快很多,但是更新數據導入的規則
,所以歷史數據與更新數據分別采用不同的方法處理。歷史數據仍使用LINQ技術一個文件處理完畢一次提交的方法;更新數據的處理效率再想辦法優化。4、將數據庫中已有數據的關鍵字段取入內存中,在內存中按照更
則進行比較之后,根據比較結果對數據庫中數據分別處理:LINQ技術缺點:已有數據較多時,速度不理想,占用內存較大,可能內存溢出;當數據需要更新時,仍需要查詢數據庫找到相關記錄優點:已有數據較少時,處理速度比第三種方法快很多;不需要更新的數據,可以直接跳過或者直接
,一定程度上減少了直接查詢數據庫的次數速度:600條每分鐘(更新數據,50萬條記錄)5條每分鐘(更新數據,550萬條記錄)5、將上改進上法中的數據庫查詢全部換成并行查詢,期望法:PLINQ技術速度仍然沒有提升6、先將數據庫中與新數據列表具有共同PUB和PUB_DATE的數據取出,放入臨時表中,之后更新數據時所需的操作都基于該臨時表進行在數據庫中已有大量數據時,此方法可以大大減少每條新數據進行查重比較所需查詢的數據量,在一定程度上提高了處理效率速度:70條每分鐘(更新數據,550萬條記錄)結論:歷史數據:LINQ技術,每處理完一個數據文件,提交一次;不查重直接導入更新數據:先提取數據庫中與新數據列表具有共同PUB、PUB_DATE的記錄存入臨時表中,以后的查詢比較等都在臨時表中進行因為DOCDB數據庫結構很復雜,所以每次嘗試新的方法或者進行某些修改,都會很耗時耗力。DOCDB處理效率統計DOCDB歷史數據的導入2130條/分鐘DOCDB更新數據的導入DE已有5,561,279條記錄:69條/分鐘JP已有15,438,462條記錄:72條/分鐘DOCDB
更新DE已有5,561,279條記錄:75條/分鐘JP已有15,438,462條記錄:73條/分鐘1)DOCDB數據庫結構特點Patent_Basic_Info表與其他表只以PUB、PUB_DATE關聯,是一對多的關系。2)
DOCDB更
則更新前要查詢專利狀態,要比較專利批次若要更新,需要先刪除24個表中與該PUB(PUB_DATE)相關的所有記錄,再將新數據的24個表中與該PUB(PUB_DATE)相關的所有記錄
。DOCDB處理效率分析DOCDB更新數據導入所需時間分析從2010年已經導完的數據日志中,發現如下規律:一個Amend文件,通常有0.8~2萬條左右的數據,大概需2h~5h不等。一個CreateDelete文件,通常有5條~2萬條左右的數據,最多1h內可以完成。每周更新數據導入所需總時間,與該周數據中Amend數據文件的個數以及其中的有效記錄數有關。通常每周有1或2個Amend文件,用時5~6h即可導完。最多的一周有9個Amend文件,用時38h導完。結論:以現在的效率,一般每周更新數據5~6h基本可以導入完畢。如果數據量較大,最多40個小時內可以完成。(注:測試服務器內存為4G)規則:直接提取節點值L001EP:<L001EP>…</L001EP>篩選記錄篩選:COUNTRY等節點篩選:CURRENT_ASSIGNEE等拆分CURRENT_ASSIGNEE,CURRENT_ADDRESS等重構APP等對照:與指定excel表中數據對照取值PRS_STATUS,STATUS_DESCRIPTION等INPADOC數據導入Inpadoc_Basic_Info查重、當前專利權人有無變更、當前狀態有無變更其他表增量導入是否規則更新對照表導入刪除原有對照表,導入
對照表;增量導入規則更新對庫中所有數據進行規則更新導入規則:功能圖INPADOC導入數據 數據解析 更新是否規則更新查重當前專利權人對照表更新規則更新數據庫創建批處理日志記錄當前法律狀態提取節點值篩選拆分、重構對照數據更新:與INPADOC導入中的更對照表更新:與INPADOC導入中的更則相同則相同INPADOC數據的導入/更新歷史數據:6897條/分鐘更新數據:7042條/分鐘(已有680萬記錄時)INPADOC規則更新庫中有685萬條記錄的情況下,規則更新所需時間為2小時50分鐘,共54個PRS_CODE。4萬條/分鐘INPADOC
更新6513條/分鐘2
已導入的歐專局專利數據量統計DOCDB德國數據:5,661,760條;17.31GDOCDB
數據:15,627,556條;29.37GINPADOC德國數據:6,658,797條;1.87G為適應2011
專利數據文件的需要,七月初,DOCDB數據庫結構再次進行了調整,之前已經完全導入成功的歷史數據再次進行了導入。目前歷史數據已經完全導入成功。2
數據搜索小工具IDNOPCADBOC數數據據搜搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高職院校線上線下教學銜接工作計劃
- 數字化線上教學小學學困生幫扶計劃
- 虛擬現實軟件上線發布流程總結
- 職業達人課件下載
- 冬雨季智能樓宇施工安全措施
- 化妝品安全試驗檢測項目計劃
- 小學一年級美術課堂教學計劃
- 急診室銳器傷處置流程他
- 高危分部分項工程安全隱患排查措施
- 2025年大班第一學期家校聯動協作計劃
- 黑龍江省哈爾濱市2024年七年級下學期生物期末試卷附答案
- 山東省鄒城市一中2024年高一數學第二學期期末檢測試題含解析
- 2022-2023學年廣西壯族自治區河池市高一下學期期末考試數學試題(解析版)
- REACH物質管理協議書
- DBJ-T 15-30-2022 鋁合金門窗工程技術規范
- 供應商審核自查表+自評回復模版BYD
- 北師大版數學四年級下冊簡易方程練習300題及答案
- 醫院項目監理節能評估報告
- 交通事故賠償法律知識講座
- 浙教版 人教版 培智生活語文四年級下冊 部分教案
- ISO 8573-6 2003(en)壓縮空氣 第6部分:氣態污染物含量測量方法
評論
0/150
提交評論