




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2022-3-8第第8 8章章 文本挖掘與文本挖掘與Web Web 數據挖掘數據挖掘 文本挖掘 Web數據挖掘案例五:跨語言智能學術搜索系統案例六:基于內容的垃圾郵件識別8.1 文本挖掘n8.1.1 分詞n8.1.2 文本表示與詞權重計算n8.1.3 文本特征選擇n8.1.4 文本分類n8.1.5 文本聚類n8.1.6 文檔自動摘要2022-3-88.1.1 分詞n分詞(詞切分)是指將連續的字序列按照一定的規范重新組合成詞序列的過程q英文:單詞之間以空格作為自然分界符,容易q中文:詞沒有一個形式上的分界符,難n中文分詞極具挑戰性的問題q歧義切分問題:研究/生物;學生會|學生會玩魔方q未登錄詞問
2、題:新詞(木有、凡客體),人名等n分詞法主要分為以下三大類:基于詞典的方法、基于統計的方法、基于語法分析的方法2022-3-8基于詞典的分詞法n正向最大匹配q從左開始算起,最大是指從一個設定的長度開始匹配,直到第一個匹配成功就切分成為一個詞n逆向最大匹配q與正向最大匹配相似,區別在于從右至左匹配n例子:研究生命起源q正向匹配結果:研究生/命/起源q逆向匹配結果:研究/生命/起源n特點:簡單,易實現;正確率受詞典大小限制2022-3-8基于統計的分詞法n假設:詞是穩定的單字組合,直觀地,在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞n只需對語料中的字組頻度進行統計,不需要切分詞典,
3、因而又叫做無詞典(統計)分詞法n基于統計模型的分詞方法是研究熱點,如基于隱馬爾可夫的方法、基于最大熵的方法n特點:精度高、詞性標注、命名實體識別;需要語料作支撐2022-3-8基于中文語法的分詞方法n通過讓計算機模擬人對句子的理解,達到識別詞的效果n其基本思想就是在分詞的同時進行句法、語義分析,利用句法和語義信息來處理歧義現象n包括三個部分:分詞子系統、句法語義子系統、總控部分n特點:由于漢語語言知識的籠統、復雜性,基于理解的分詞系統還處在試驗階段2022-3-8常見分詞工具nICTCLASq中國科學院計算技術研究所開發q采用層疊隱馬爾可夫模型q中文分詞,詞性標注,命名實體識別,新詞識別q支持
4、C/C+/C#/Delphi/Java等主流開發語言nimdict-Chinese-analyzerqICTCLAS中文分詞程序基于Java的重新實現q采用基于隱馬爾科夫模型的方法q直接為Lucene搜索引擎提供簡體中文分詞支持2022-3-8常見分詞工具(續)nIKAnalyzerq采用特有的“正向迭代最細粒度切分算法”q基于Java語言開發的輕量級開源分詞工具包q60萬字/秒的高速處理能力n簡易中文分詞系統SCWSqhightman 個人開發q采用標準C開發q提供 C接口、PHP擴展(源碼、WIN32的DLL文件)2022-3-8常見分詞工具(續)n盤古分詞q基于.net Framewor
5、k的中英文分詞組件q中文未登錄詞識別、人名識別、多元分詞等功能q支持英文專用詞識別、英文原詞輸出、英文大小寫同時輸出等q單線程分詞速度為390 KB/s,雙線程分詞速度為690 KB/s( Core Duo 1.8 GHz )n其它q Paoding(庖丁解牛分詞)、HTTPCWS、MMSEG4J以及CC-CEDICT等2022-3-88.1.2 文本表示與詞權重計算n目前文本表示主要是采用向量空間模型(Vector Space Model,VSM)n每個文本被表示為在一個高維詞條空間中的一個向量n詞條權重wi,j一般采用TFIDF方法來計算得到2022-3-8m, im, i, i, i,
6、i, i, i, iiw:t,.,w:t ,w:t ,w:td332211ittNntfj ,ij ,ij , ij , ittmNlogidfmjtittitttj , ij , ij , ij , ij , ij , ij , imNlogNnmNlogNnidftfw128.1.3 文本特征選擇n文本特征選擇是根據某種準則從原始特征中選擇部分最有區分類別能力的特征n主要分為無監督和有監督的方法n常用的方法有以下幾種q文檔頻率(Document Frequency,DF)q單詞權(Term Strength,TS)q信息增益(Information Gain,IG)q互信息(Mutual
7、Information,MI)q期望交叉熵(Expected Cross Entropy,ECE)2022-3-8基于文檔頻率的方法n文檔頻率是指所有訓練文本中出現某個特征詞的頻率n是一種無監督的方法n通常會分別設置一個小的閾值和大的閾值來過濾一些低頻詞和頻數特別高的詞n特點q優點:簡單、易行q缺點:低頻詞有時能很好反映類別信息;忽略了特征詞在文檔中出現的次數2022-3-8基于信息增益的方法n根據某個特征詞t在一篇文檔中出現或者不出現的次數來計算為分類所能提供的信息量,并根據該信息量大小來衡量特征詞的重要程度,進而決定特征詞的取舍n信息增益是最常用的文本特征選擇方法之一n特點:該方法只考察特
8、征詞對整個分類的區分能力,不能具體到某個類別上2022-3-8 njijijinjijijinjjjiitCPlogtCPtPtCPlogtCPtPCPlogCPt |CHCHtIG1212128.1.4 文本分類n文本自動分類(簡稱“文本分類”)是在預定義的分類體系下,根據文本的特征(詞條或短語),將給定文本分配到特定一個或多個類別的過程n基本步驟可以分為三步:q將預先分過類的文本作為訓練集輸入q構建分類模型q對新輸入的文本進行分類n常見的算法包括:線性分類器、k最近鄰分類器、樸素貝葉斯、決策樹、支持向量機分類器2022-3-8樸素貝葉斯分類器n貝葉斯分類算法有兩種模型:多變量伯努利事件模型
9、和多項式事件模型n多變量伯努利事件模型q特征詞在文本中出現則權重為1,否則權重為0。不考慮特征詞的出現順序,忽略詞出現的次數n多項式事件模型q一篇文檔被看作是一系列有序排列的詞的集合2022-3-8類的文本數量類中出現的文本數量在特征iiCCtC|tPjijmjijxtijxtiC|tPBC|tPBC|dP111| v |ijjniji!nC|tP|!d|d|PC|dPjiiCmVnmnCmmjijdtcountdtcountCtP111,|常用基準語料nReuters-21578是最常用的公開英文語料庫q21578篇新聞報道q135個類別n20 Newsgroups是重要的公開英文語料庫q大
10、致20000篇新聞組文檔q6個不同的主題以及20個不同類別的新聞組nTanCorp是公開的中文基準語料庫q收集文本14150篇q分為兩個層次。第一層12個類別,第二層60個類別2022-3-8常用基準語料(續)n復旦大學中文文本分類語料庫q測試語料共9833篇文檔,訓練語料共9804篇文檔q包含20個類別n其它語料庫還包括OHSUMED、WebKB、TREC系列和TDT系列等2022-3-8模型評估n文本自動分類通常是不平衡的分類任務,常用的分類準確率(Accuracy)指標并不合適n一般使用每個類的F-measure值以及全部類F-measure值的平均來評估算法的性能n其中,r表示每個類的
11、召回率(Recall),p表示每個類的精度(Precision),通常取值為1,也就是經常被使用到的F1值2022-3-8221prpr)(measureF模型評估(續)n語料上的整體性能,通常采用微平均和宏平均方法q微平均是根據所有類準確劃分文本個數和錯誤劃分文本個數來計算精度和召回率q宏平均則是計算每個類別得到的精度和召回率的平均值n在不平衡數據分類上,宏平均方法更能反映出分類器的性能。2022-3-88.1.5 文本聚類n自動化程度較高的無監督機器學習方法,不需要預先對文檔手工標注類別n主要任務是把一個文本集分成若干個稱為簇的子集,然后在給定的某種相似性度量下把各個文檔分配到與最其相似的
12、簇中n相似性度量方法在此過程起著至關重要的作用2022-3-8文本相似度計算n方法主要分為兩大類:基于語料庫統計的方法和基于語義理解的方法n基于語料庫統計的方法:基于漢明距離和基于空間向量模型的方法q漢明距離用來描述兩個等長碼字對應位置的不同字符的個數,從而計算出兩個碼字的相似度q基于空間向量模型方法是一種簡單有效的方法2022-3-8mkk , jk , ijijiwwd ,ddd ,dsim1211mkk , jmkk , imkk , jk , ijiwwww,inecosd ,dsim12121jijijidddddd文本相似度計算(續)n基于語義理解的方法:考慮語義信息的文本相似度計
13、算方法q該方法主要分為三大類:詞語相似度、句子相似度、段落相似度n計算詞語相似度往往需要一部語義詞典作為支持,目前使用頻率最高的語義詞典是知網n句子相似度計算要通過利用語法結構來分析n漢語句子機構相當復雜,段落相似度計算更復雜2022-3-8文本聚類過程n以K-means算法詳細介紹文本聚類的過程任意選擇k個文本作為初始聚類中心Repeat 計算輸入文本與簇之間的相似度,將文本分配到最相似的簇中 更新簇質心向量Until 簇質心不再發生變化2022-3-8評估指標n外部質量準則的聚類熵、聚類精度n文本分類方法的召回率、精度、F-measure值n文本聚類算法整體性能的評估q宏平均或微平均F-m
14、easure值q聚類熵2022-3-88.1.6 文檔自動摘要n文檔自動摘要,簡稱自動文摘,是指利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文n處理過程大致可分為三個步驟:q文本分析過程q信息轉換過程q重組源表示內容,生成文摘并確保文摘的連貫性2022-3-8文檔自動摘要的類型n按不同標準,文檔自動摘要可分為不同類型:q根據文摘的功能劃分,指示型文摘、報道型文摘和評論型文摘q根據輸入文本的數量劃分,單文檔文摘和多文檔文摘q根據原文語言種類劃分,單語言文摘和跨語言文摘q根據文摘和原文的關系劃分,摘錄型文摘和理解型文摘q根據文摘的應用劃分,普通型文摘和面向用戶查詢文摘
15、2022-3-8相關技術n文檔自動摘要技術主要有以下幾種類型q自動摘錄法q最大邊緣相關自動文摘法q基于理解的自動文摘q基于信息抽取的自動文摘q基于結構的自動文摘q基于LSI語句聚類的自動文摘2022-3-8相關技術(續)n自動摘錄法將文本看成是句子的線性排列,將句子看成詞的線性排列,然后從文本中摘錄最重要的句子作為文摘句n最大邊緣相關法從文本中挑選出與該文本最相關的,同時與已挑選出的所有代表句最不相關的句子作為下一個代表句n基于理解的方法利用語言學知識獲取語言結構,更重要的是利用領域知識進行判斷、推理,得到文摘的語義表示,從語義表示中生成摘要2022-3-8相關技術(續)n基于信息抽取的方法首
16、先根據領域知識建立該領域的文摘框架,然后使用信息抽取方法先對文本進行主題識別,再對文本中有用片段進行有限深度的分析,最后利用文摘模板將文摘框架中內容轉換為文摘輸出n基于結構的方法將文章視為句子的關聯網絡,與很多句子都有聯系的中心句被確認為文摘句,句子間的關系可通過詞間關系、連接詞等確定2022-3-8相關技術(續)n基于LSI語句聚類的方法利用潛在語義索引LSI(Latent Semantic Indexing),獲得特征項和文本的語義結構表示。在語義空間考慮特征項權重不是依賴于單純的詞頻信息,而是考慮到特征項對于文本主題的表現能力以及在整個文本集中使用的模式。2022-3-8相關技術(續)n
17、以上方法普遍會面臨以下三個關鍵問題的挑戰q文檔冗余信息的識別和處理q重要信息的辨認q生成文摘的連貫性2022-3-8性能評估n自動文摘包含標準文摘的信息比率是內部測評中對文摘內容完整性的一種重要測評n幾個主流的評價方法:q單文檔文摘評價系統(Summary Evaluation Environment)qROUGEqPyramidqBE(Basic Elements)方法2022-3-88.2 Web數據挖掘n8.2.1 Web內容挖掘n8.2.2 Web使用挖掘n8.2.3 Web結構挖掘2022-3-88.2.1 Web內容挖掘nWeb內容挖掘是從Web頁面的文本、圖像、視頻和組成頁面的其
18、它內容中提取信息的過程nWeb內容挖掘在Web搜索、垃圾郵件過濾、敏感信息過濾、情報分析、數字圖書館建設、網絡輿情監控等方面有著重要的應用價值n文本挖掘技術可應用于Web頁面的文本挖掘中n圖像和視頻等內容的挖掘是多媒體數據挖掘中的重要部分q主要方法也是數據預處理、分類、聚類、關聯規則2022-3-88.2.2 Web使用挖掘nWeb使用挖掘通過挖掘Web日志記錄,發現用戶訪問Web頁面的模式q可以識別電子商務的潛在客戶q增強對最終用戶的因特網信息服務的質量和交互q改進Web服務器系統性能2022-3-8數據收集nWeb使用記錄挖掘中的主要數據來源是服務器日志文件,主要可分為以下四種類型數據q使
19、用記錄數據:首要的數據來源q內容數據:由文字材料和圖片組成q結構數據:從設計者的角度所看到的網站內容組織結構q用戶數據:包括注冊用戶人口統計信息(如性別、年齡、職業等)、用戶對各種對象的訪問率、用戶的購買記錄或歷史訪問記錄等2022-3-8預處理2022-3-8Web日志文件數據清理用戶識別會話識別預處理結果事務識別路徑補充站點結構統計訪問Web使用模式的發現和分析n會話及訪問者分析q在已預處理的會話數據中,發現訪問者行為的知識n使用記錄聚類分析q用戶聚類:用戶聚類的目的是對具有相同瀏覽模式的用戶進行分組q頁面聚類:在基于使用記錄數據的聚類中,被經常訪問的項目或購買記錄可能被自動組織成一個個分
20、組2022-3-8Web使用模式的發現和分析(續)n關聯規則及相關度分析q可以找到普遍在一起被訪問或被購買的頁面或項目的分組q可以用在Web個性化推薦系統中n在電子商務的推薦系統中使用關聯規則,目標用戶的偏好是符合每個規則前項X中的項目,而在右側的項目所符合的規則按照置信度排序,這個列表中排名靠前的N個項目便可考慮推薦給目標用戶q問題:若數據集稀疏,則無法給出任何推薦n解決方案:協同過濾2022-3-8Web使用模式的發現和分析(續)n導航模式分析q要發現或分析用戶導航模式,一種方法是將網站中導航活動建模成Markov模型qMarkov模型:每個頁面訪問可以被表示成一個狀態,兩個狀態間的轉換概
21、率可以表示用戶從一個狀態到另一個狀態的可能性。這種表示方式允許計算一些有用的用戶或網站的度量2022-3-8Web使用模式的發現和分析(續)n基于Web用戶事務的分類和預測q在Web使用實例中,基于用戶人口統計信息以及他們的購買活動,分類技術可以將用戶分成高購買傾向和非高購買傾向兩類q協同過濾是Web領域分類和預測中的一個重要應用nk近鄰分類器(kNN)是一種簡單有效的協同過濾方法,通過計算當前用戶模型和以往用戶模型的相關度,預測用戶訪問率或購買傾向,以找到數據庫中有著相似特性和偏好的用戶2022-3-88.2.3 Web結構挖掘nWeb結構挖掘就是指通過分析不同網頁之間的超鏈接結構,網頁內部
22、用HTML、XML表示的樹形結構,以及文檔URL中的目錄路徑結構等,發現許多蘊含在網絡內容之外的對我們有潛在價值的模式和知識的過程nWeb頁之間的超鏈接結構中包含了許多有用的信息。當網頁A到網頁B存在一個超鏈接時,則說明網頁A的作者認為網頁B的內容非常重要,且兩個網頁的內容具有相似的主題2022-3-8PageRank算法n目前對Web結構進行分析的主要方法是將Web看作有向圖,然后根據一定的啟發規則,用圖論的方法對其進行分析nPageRank 算法是超鏈接結構分析中最成功的代表之一n搜索引擎Google就是通過利用該算法和anchor text標記、詞頻統計等因素相結合的方法,對檢索出的大量
23、結果進行相關度排序,將最權威的網頁盡量排在前面2022-3-8PageRank算法(續)nPageRank算法假設q從一個網頁指向另一個網頁的超鏈接是一種對目標網站權威的隱含認可,因此,一個頁面的入度越大則它的權威就越高q另一方面,指向網頁自身也有權威值,一個擁有高權威值網頁指向的網頁比一個擁有低權威值網頁指向的網頁更加重要,如果一個網頁被其它重要網頁所指向,那么該網頁也很重要2022-3-8HITS算法nWeb的鏈接具有以下特征q有些鏈接具有注釋性,也有些鏈接是起導航或廣告作用。有注釋性的鏈接才用于權威判斷q基于商業或競爭因素考慮,很少有Web網頁指向其競爭領域的權威網頁q權威網頁很少具有明
24、顯的描述,例如Google主頁不會明確給出Web搜索引擎之類的描述信息nPage Rank算法中對于向外鏈接的權值貢獻是平均的,但根據以上Web的鏈接特征可看出平均地分布權值不符合鏈接的實際情況2022-3-8HITS算法(續)n康奈爾大學博士J. Kleinberg提出的HITS (Hypertext Induced Topic Search)算法q在算法中引入了另外一種網頁,稱為Hub網頁qHub網頁是提供指向權威網頁(Authority)鏈接集合的Web網頁,它本身可能并不重要,但是Hub網頁卻提供了指向就某個主題而言最為重要的站點的鏈接集合qKleinberg認為網頁的重要性應該依賴于
25、用戶提出的檢索主題,而且對每一個網頁應該將其Authority權重和Hub權重分開來考慮2022-3-8HITS算法(續)n根據頁面之間的超鏈接結構,將頁面分為Authority頁和Hub頁n一般來說,好的Hub 網 頁 指 向 許 多 好 的Authority網頁,好的Authority網頁是由許多好的Hub網頁指向的Web網頁。這種Hub與Authority網頁之間的相互加強關系,可用于Authority網頁的發現和Web結構和資源的自動發現,這就是HITS算法的基本思想2022-3-8HITS算法(續)nHITS算法如下q將查詢q提交給傳統的基于關鍵字匹配的搜索引擎q從搜索引擎返回的網頁
26、中取前n(在介紹的HITS論文中采用n=200)個網頁作為根集(root set),用S表示q通過向S中加入被S引用的網頁和引用S的網頁將S擴展成基集Tq接著算法對基集T內部的每個網頁進行處理,計算T中每個網頁的Authority值和Hub值q迭代計算并輸出一組具有較大Hub值的頁面和具有較大Authority值的頁面2022-3-8PageRank與HITS算法的對比n處理對象和算法效率不同qPageRank算法可以離線計算每個網頁的PageRank值,能對用戶查詢產生快速的響應qHITS算法由根集S生成基集T的時間開銷很昂貴,實時性較差n傳播模型不同qPageRank算法是基于隨機游走類型
27、的qHITS算法將網頁分為Authority網頁和Hub網頁,Authority網頁和Hub網頁交互傳播,相互加強2022-3-8PageRank與HITS算法的對比(續)n反網頁作弊能力不同qPageRank算法能較好地防止網頁作弊的發生qHITS算法則沒有這樣好的反作弊能力,因為網頁擁有者可以很容易地在自己的網頁上添加大量指向權威網頁的鏈接,進而影響HITS算法得到的Authority值和Hub值n“主題漂移”問題qHITS算法存在“主題漂移”問題qPageRank則較好地克服了“主題漂移”問題2022-3-88.3 跨語言智能學術搜索系統n8.3.1 混合語種文本分詞n8.3.2 基于機
28、器翻譯的跨語言信息檢索n8.3.3 不同語種文本的搜索結果聚類n8.3.4 基于聚類的個性化信息檢索n8.3.5 基于聚類的查詢擴展n8.3.6 其它檢索便利工具n8.3.7 系統性能評估2022-3-88.3.1 混合語種文本分詞n漢語詞法分析系統ICTCLASq中文分詞;詞性標注;關鍵詞提取;命名實體識別;未登錄詞識別q分詞正確率高達97.58%(973專家組評測);未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%;處理速度為31.5Kbytes/snLuceneq高性能文本分析器,可根據單詞間的空格進行分詞q大小寫轉換、不規則符號過濾、停用詞過濾(Stop words
29、filtering)、詞干提取(Stemming)2022-3-8n整合ICTCLAS和Lucene混合語種分詞策略:輸入一個文本; 采用ICTCLAS對所輸入文本進行中文分詞以及詞性標注處理;提取標注為“x”詞性字符串,采用Lucene標準分析器(StandardAnalyzer)進行第二趟分詞,對輸入字符串進行大小寫轉換、不規則符號過濾、停用詞過濾、詞干提取;文本是否已經處理完,如果否則轉(1);結束。2022-3-88.3.2 基于機器翻譯的跨語言信息檢索n基于統計的機器翻譯方法已經具備用戶可接受的準確率nGoogle翻譯是基于統計方法的機器翻譯n研究結合Google翻譯和元搜索技術實現
30、基于機器翻譯的跨語言學術檢索2022-3-8n實現流程:用戶輸入查詢詞并選擇目標語言;若目標語言與源語言(查詢詞所屬語言)相同則轉(3),否則將查詢詞翻譯成目標語言,作為新的查詢詞;將查詢詞提交到搜索源;返回搜索結果。2022-3-88.3.3 不同語種文本的搜索結果聚類n對不同語種文本采用不同的聚類算法:q使用Lingo搜索結果聚類算法對西語西語文本進行聚類處理q采用一趟聚類算法對中文中文搜索返回結果進行增量多層聚類2022-3-88.3.4 基于聚類的個性化信息檢索n個性化信息檢索主要是通過用戶興趣模型對搜索返回結果進行個性化重排序和個性化過濾返回結果等方式實現n介紹方法的流程:q觀察用戶
31、對聚類結果的點擊行為,實時提取用戶的興趣偏好q生成并更新用戶實時興趣模型q采用余弦夾角公式計算興趣模型與搜索結果相似度q按照相似度從大到小對其進行重排序,以實現個性化的檢索需求2022-3-88.3.5 基于聚類的查詢擴展n通過查詢擴展技術,搜索引擎系統能較好地理解用戶的查詢意圖n采用基于局部分析的聚類分析方法n選取可讀性強的聚類結果類標簽作為擴展詞n提供交互式的擴展詞選擇方式2022-3-88.3.6 其它檢索便利工具n面向文獻來源網站(URL)的層次歸類方法q“.com”、“.cn”n“”q“”n基于文獻發表期刊或者會議的歸類方法n引用文獻聚類功能n按相似度排序、按時間排序、按被引用次數排
32、序2022-3-88.3.7 系統性能評估n系統的分詞速度為111 kb/snMT CLIR(Machine Translation CLIR)的短查詢詞、中查詢詞和長查詢平均準確率分別為0.4446、0.5536和0.617nMCIBC和Lingo的微平均F-Measure值分別達到了0.4917和0.5178n個性化排序方法得到了較高的P5、P10和P20值(均高于0.5)2022-3-8部分系統截圖部分系統截圖2022-3-82022-3-82022-3-82022-3-82022-3-88.4 基于內容的垃圾郵件識別n8.4.1 垃圾郵件識別方法簡介n8.4.2 基于內容的垃圾郵件識別
33、方法工作原理n8.4.3 一種基于聚類的垃圾郵件識別方法2022-3-88.4.1 垃圾郵件識別方法簡介n主流的垃圾郵件識別技術可分為郵件服務器端防范技術和郵件客戶端防范技術兩大類n郵件服務器端防范技術:q基于IP地址、域名和 “(黑)白名單”過濾技術;q基于信頭、信體、附件的內容過濾技術;基于信頭、信體、附件的內容過濾技術;q基于連接頻率的動態規則技術;n郵件客戶端防范技術:q充分利用黑名單,白名單功能;q慎用“自動回復”功能;盡量避免泄露郵件地址;2022-3-8基于內容的垃圾郵件識別技術n基于內容的垃圾郵件識別技術是郵件服務器端防范技術的主流技術,以上提到的基于信頭、信體、附件的內容過濾技術是典型的基于內容的方法n這類型方法的典型代表有Bayes方法、kNN、支持向量機SVM、Rocchio、神經網絡等2022-3-88.4.2 基于內容的垃圾郵件識別方法工作原理n一封標準格式的電子郵件包含有郵件頭部(mail head)和郵件體(mail body)兩部分n郵件頭部包括發件人,收件人,抄送人,發信日期,主題,附件等信息n郵件體包括郵件正文信息n實例圖如下:2022-3-82022-3-8垃圾郵件過濾的基礎n在不考慮附件、圖片化文字等問題,只簡單考慮郵件中包含的文本內
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單詞默寫訓練題目及答案
- 大運會題目及答案大全集
- DB1303T 180-2011 塑料日光溫室秋延后茬番茄栽培技術規程
- 2025年低碳城市建設中的廢棄物處理與資源化報告
- 三基三嚴l臨床考試試題及答案
- 河北省安全員考試試題及答案
- 農業經濟學b考試試題及答案
- 【常德】2025年湖南常德市安鄉縣部分事業單位招聘工作人員120人筆試歷年典型考題及考點剖析附帶答案詳解
- 江蘇省安全員b考試試題及答案
- 重慶安全員題庫考試試題及答案
- 管理處干部職工廉潔從業行為規范
- 果蔬脆片生產工藝1課件
- 中暑預防及急救課件
- GB-T 1040.3-2006 塑料 拉伸性能的測定 第3部分:薄塑和薄片的試驗條件
- 事業單位招聘人員體檢表
- 成品交付檢驗記錄表
- YY∕T 0321.1-2022 一次性使用麻醉穿刺包
- 河道清淤疏浚工程水生態影響對策措施
- 2022年水穩購銷合同范本
- LTPS-LCD工藝流程簡介資料
- 廚房管理表格
評論
0/150
提交評論