



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、中國移動專利申請技術交底書注意事項1. 技術 人應為深入了解本申請提案技術方案的技術 ,如交底書撰寫人,負責向專利審核 和 人解釋技術細節、修改交底書、審核申請文件等工作, 請務必填全技術 人的姓名、 、 。2. 請按照 公司提供的本技術交底書模板逐項填寫,除交底書第八部分為可選項外,其他均為必須填寫的內容。填寫不全的專利申請提案, 公司不予 。3. 專利申請不要求已具體實現或實施,形成完整的技術方案即可提交申請,特別是需要向合作方公開、向標準提案或以其他方式公開的重要技術構思應公司編號由公司專利管理處填寫發明名稱一種基于分布式網絡爬蟲調度的用戶行為分析方法申報廣西移動運營支撐中心申報類型發明
2、發明人劉曉峰 甘雯 王濤 羅鵬技術人羅鵬luopeng中國移動通信公司在公開前盡早申請。4技術交底書文件命名要求:發明名稱短橫線(半角)交底書版本號,例:一種短消息方法-交底書 v1.doc一、發明名稱【發明名稱應盡量清楚、簡要、全面地反映技術方案的主題和類型,并盡可能使用所屬技術領域通用技術術語。】一種基于分布式爬蟲調度的用戶行為分析方法二、技術領域【請在下述技術領域中選擇本申請提案中技術方案所屬領域:無線、網、傳支持技輸與 IP、業務支撐、數據業務、其他(包括通信電源及其他術等)。如果本申請提案的技術方案序選擇多個領域。】多個領域,請按照相關性從高到低的順業務支撐三、現有技術的技術方案【請
3、在這部分寫明以下兩個部分的內容:其一是作申請提案基礎且能夠幫助人理解本申請提案的公知技術;這部分內容以與本申請提案密切相關的公知技術為限,且簡單介紹即可;其二是現有技術中與本申請提案最為接近的技術方案;這部分要寫明現有的技術方案是怎樣實施的,尤其是對現有技術方案與本申請提案的不同之處要描述清 楚,清楚到足以讓閱讀交底書的人能夠符合邏輯地推導出現有技術方案的缺點; 而不能只給出現有技術方案的缺點。如果存在多個與本申請提案最為接近的現有技術,請將其逐一按照上述要求寫明。如果與本申請提案最為接近的技術方案是檢索到的專利文獻,可以只給出專利文獻的申請號或公開號,但需對公開的技術方案進行簡單描述。請注意
4、:如果重新檢索到更接近的對比文件,應當相應修改本部分內容。】目前于移動用戶行為分析的,主要為基于用戶通信行為以及用戶消費行為的分析。根據兩者的綜合結果確定用戶的消費偏好從而得到用戶畫像,再進行性的。另外一方面,目前分布式爬蟲系統多采用集中式或基于散列的任務分割策略。這兩種策略都是從均勻分配的出發點解決問題,沒有考慮URL 優先級的影響和子節點負載情況。四、現有技術的缺點及本申請提案要解決的技術問題【請技術中與本申請提案最為接近的技術方案,將其與本申請提案相比,寫明現有的技術方案具有哪些缺點;如果有多個與本申請提案最為接近的技術方案,請逐一分別寫明。這些缺點同時必須是本申請提案的技術方案能夠解決
5、的技術問題。請注意:所寫的缺點應當是技術性的缺點,比如利用率低、網絡實體負荷過大等,而不能是管理性或商業性的缺點,比如依據人的評價或某個管理規范推導出的缺點、商業運行上的缺點等。如果重新檢索到更接近的對比文件,應當相應修改本部分內容。】目前的用戶行為分析主要存在以下弊端:(1)隨著 3G的到來,傳統的用戶通信行為分析以及用戶消費行為分析已經不足以完全反應用戶的行為習慣,用戶畫像存在缺失。這對于要求日益精確的的客戶畫像,則無法準確管理來說是個很大的缺憾,沒有完整用戶的行為喜好,從而無法做出精準營銷,直接企業投入產出比;(2)而在分布式爬蟲系統中,爬取任務的均衡分配是影響系統性能和或基于配置的關鍵
6、問題之一。目前分布式爬蟲系統慣用的集中式散列的任務分割策略并沒有考慮 URL 優先級的影響和子節點負載情況,導致系統任務調度效率低下,從而成為分析 WAP日志這一海量數據的瓶頸。五、本申請提案的技術方案的詳細闡述【請對本申請提案所提供的技術方案做詳細描述,必須說明技術方案是怎樣實現的,不能只有原理,也不能只介紹功能。如果本申請提案的技術方案提供的是法或者業務流程,則需要提供該方法或業務的流程圖或信令交互圖,并結合圖以步驟的形式順序描述技術方案的整體實現流程。如果本申請提案的技術方案提供的是一種系統或者一個設備,則需要提供該系統或該設備內部組成部分的結構圖,并結合結構圖,詳細描述各個組成部分的功
7、能或各個部分的信號處理方式、以及各個部分之間的連接關系(該連接關系可以是物理的連接,如焊接;也可以是邏輯的連接,如傳送了某種信號或某種信息)。在方法的各個步驟或設備的結構中,對于本申請提案沒有對其作出改進的步驟或組成部分(如和現有技術相同的實現)簡要描述即可,對于本申請提案對其作出改進的步驟或組成部分,或者是新的步驟或組成部分,則需要詳盡地描述,到本領域技術不需要付出創造性的勞動即可實施的程度。】目前 WAP 網關中有大量用戶上網日志,此重要的信息沒有被很好地挖掘,無法形成有效的用戶知識,不能支撐對客戶的工作,在此背景下,我們建設互聯網行為分析系統,一方面完善對用戶的認知,一方面在此基礎上支撐
8、對用戶的。整體系統架構如下圖所示。系統基于網絡爬蟲設計,數據處理流程為:1、用戶終端網絡,在 WAP 網關留下日志,日志文件通過 ETL 接口接入分析平臺;2、分析平臺對網關日志進行分析,提取用戶信息及URL 信息,經過業務過濾和任務分解,生成網絡爬蟲抓取任務,加入任務調度隊列;3、網絡爬蟲根據任務分配 URL,從互聯網上抓取該 URL 對應的網頁內容,根據內容出 URL,再進行內容抓取;4、對于抓取的頁面內容,通過分詞、類,再結合聚類技術,進行用戶行為挖掘;挖掘等進行文本分5、得到用戶網絡行為特征,結合傳統的用戶通信行為以及消費行為特征,完戶畫像。面對海量用戶的網絡,網絡內容的抓取效率將會成
9、為互聯網行為分析系統性能以及準確程度的關鍵因素,對于這樣的應用環境,采取分布式網絡爬蟲的抓取方式是提高抓取效率的一個有效途徑。而對于分布式網絡爬蟲抓取,網絡爬蟲任務的任務分割算法將成為分布式網絡性能能否最優化的的因素。本項目的系統架構,任務分割算法包括的 URL 加權傳遞排序算法和方法。服務器調度的基于散列的最小調度(1)在中心節點和子節點中的 URL 隊列中設計算法。傳遞的排序首先,在中心節點級,其 URL 隊列主體是不同主題的 URL,影響爬取質量的屬性包括頁面重要性、抓取頻率和搜索深度。頁面重要性評價采用基于網絡拓撲的 PageRank 算法作為標準,采用線性函數計算,具體為對應的 PR
10、 和 URL 隊列中 PR 最小值的差與PR 最大值和最小值差的比值:PRI - min( PR)a =Imax( PR) - min( PR)搜索深度是指頁面在最佳優先策略中規定的層數,有 HiddenWeb 表單的深度為 1,目錄塊結構的數據密集型頁面深度為 2,正文導向的目標頁面深度為 3,搜索深度的權重影響因子為其本身深度的倒數。b I =1Li抓取頻率是根據搜索前臺需求和更新策略設置的時間間隔對應的影響因子,更新間隔短,抓取頻率大,則優先級較高。經過研究比較,首先采用線性歸一化函數處理得到結果,然后過 Sigmoid 函數均勻處理,具體計算如下:,最后經FI - min( F )x
11、=Imax( F ) - min( F )其中, FI 是最大值和最小值。的抓取頻率;min 和 max 分別取得隊列中頻率11 + e-axg =Ia取值大于 1,是線性平滑結果后的因子,目標是擴大首步計算結果。按照 Sigmoid 函數曲線,a 在系統中取 2.5。由此可以得出,的優先級權重是 3 個影響因子的算術平均:= a i + b i + g iQI3其次,子節點中的 URL 隊列繼承了中心節點的 URL 權重算法,Q 值中抓取頻率和站點重要性 2 個因子不變,只會隨搜索深度因子變化,計算如下:- b pre- bpre3其中, Qpre 是從父 URL 傳遞下來的權值; b pr
12、e 是父 URL 的搜索深度因子; b 是對象 URL 的搜索深度因子。(2)調度隊列的調度采用用相應的權值表示其處理性能最小調度算法。各個子節點最小連接調度在調度新連接時盡可能使服務器的已建連接數和其權值呈正比最小連接調度的算法流程如下:假設有一組服務器 S=S0,S1, Sn-1,W(Si)表示服務器Si 的權值,C(Si)表示服務器 Si 的當前連接數。所有服務器當前連接數的總和為CSUM = åC(Si )(i=0,1,n-1)當前的新連接請求會被服務器 Sm,當且僅當服務器 Sm 滿足以下條件再,Sm 執行內容抓取任務:C(Sm )= min C(Si )W (Sm )W
13、(Si )整體的系統拓撲結構如下圖所示。在經過網絡爬蟲抓取頁面內容入庫后,經過內容分類以及用戶聚類分析,最終得到用戶的網絡行為分析畫像。六、本申請提案的關鍵點和欲保護點【請對本申請提案與現有技術不同的各個區別點進行提煉,按照區別點對本申請提案發明目的影響的重要程度從高到低順序列出。】將移動通信用戶分析范疇從傳統的通信及消費分析模式提升到 網絡行為分析模式,完善客戶畫像。整套系統基于分布式網絡爬蟲構 建;當前網絡爬蟲系統對于海量分析數據,爬蟲任務的調度成為系統效率一大瓶頸的問題,本項目采用了基于 URL傳遞排序算法和基于散列的最小調度方法,有效提高了調度效率。七、與第三條中最接近的現有技術相比,本申請提案有何技術優點【請按照重要性從高到低的順序,寫明本申請提案相比于現有技術所具有的優點,并逐一說明本申請提案是因為采用了怎樣的技術才能具有某個優點。請注意:至少要寫明與現有技術缺點相對應的本申請提案的優點,如果本申請提案取得了的技術效果也請列出;這里所說的優點或效果是指技術上的優點,而不是管理上或商業上的優點。】申請的專利方案有如下特點:3G 網絡移動用戶的行為特點,了傳統的基于用戶通信及消費的分析模式,加入了基于分布式網絡爬蟲系統的用戶網絡行為分析元素,最大程度完善了客戶畫像,從而在精確方面提供了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論