




已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
2005碩士論文模版 - 清華大學(xué).pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于輸入法用戶詞庫(kù)和 查詢?nèi)罩镜娜舾裳芯?Some Research based on User Dictionary of Input Method and Query Log 申請(qǐng)清華大學(xué)工學(xué)碩士學(xué)位論文 培 養(yǎng) 單 位 計(jì)算機(jī)科學(xué)與技術(shù)系 學(xué) 科 計(jì)算機(jī)科學(xué)與技術(shù) 研 究 生 王 鵬 指 導(dǎo) 教 師 孫 茂 松 教 授 二 一一年四月 基 于 輸 入 法 用 戶 詞 庫(kù) 和 查 詢 日 志 的 若 干 研 究 王 鵬 關(guān)于學(xué)位論文使用授權(quán)的說(shuō)明 本人完全了解清華大學(xué)有關(guān)保留 使用學(xué)位論文的規(guī)定 即 清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán) 其中包 括 1 已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文 學(xué)校可以 采用影印 縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文 2 為 教學(xué)和科研目的 學(xué)校可以將公開(kāi)的學(xué)位論文作為資料在圖書館 資 料室等場(chǎng)所供校內(nèi)師生閱讀 或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi) 容 本人保證遵守上述規(guī)定 保密的論文在解密后遵守此規(guī)定 保密的論文在解密后遵守此規(guī)定 作者簽名 導(dǎo)師簽名 日 期 日 期 摘要 I 摘 要 中文輸入法是中文計(jì)算機(jī)用戶的重要工具 但是基于中文輸入法的用 戶行為研究非常稀少 本文研究了用于中文輸入法用戶詞庫(kù)和搜索引擎查 詢?nèi)罩镜淖?詞情況 通過(guò)數(shù)據(jù)處理統(tǒng)計(jì)分析 本文介紹了用戶詞庫(kù)和查 詢?nèi)罩驹谟米钟迷~上的新特點(diǎn)并與其他數(shù)據(jù)進(jìn)行對(duì)比 結(jié)合用戶詞庫(kù) 查 詢?nèi)罩?Wiki Sogout 數(shù)據(jù) 本文論述了尋找 Wiki 中文常見(jiàn)詞條的方法 并分析結(jié)果 本文還介紹了通過(guò)兩個(gè)記錄用戶輸入序列信息的輸入法數(shù)據(jù) 抽取拼音錯(cuò)誤模式的方法 并對(duì)結(jié)果進(jìn)行分析并試圖找到錯(cuò)誤發(fā)生的原 因 總結(jié)了中文輸入法輸入錯(cuò)誤的一些規(guī)律 最后 本文介紹了實(shí)現(xiàn) Win32 平臺(tái)下女書拼音輸入法的機(jī)制和原理 關(guān)鍵詞 輸入法 搜索引擎 錯(cuò)誤模式 用戶詞庫(kù) 查詢?nèi)罩?Abstract II Abstract Chinese Input Method is an important tool of Chinese computer users But studies on user behaviors in Chinese Input Method are rare This paper introduces the research on Chinese characters and words used in Chinese Input Method and Search Engine Based on data processing and statistical analysis we introduce new features of Chinese Input Method user dictionaries and Search Engine query logs and compare them to other datasets We also introduce and analysis some methods to find popular Wiki Chinese words based on user dictionaries query logs Wiki and Sogout dataset And we introduce the method of extracting Pinyin error patterns by several methods based on two datasets of two Chinese input methods which include input sequences of users Then we analysis these input error patterns and try to find their reasons We summarize some rules of input errors of Chinese in input method At last we introduce how to implement Female Script Pinyin Input Method based on Win32 system Keywords Input Method Search Engine error patterns User dictionary Query log 目 錄 III 目 錄 第 1 章 引言 1 1 1 研究背景 1 1 2 研究現(xiàn)狀 1 1 3 本文的主要內(nèi)容與貢獻(xiàn) 2 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 3 2 1 實(shí)驗(yàn)概述 3 2 2 數(shù)據(jù)說(shuō)明 3 2 3 用戶詞庫(kù) 查詢?nèi)罩?媒體字表單字使用情況 4 2 3 1 輸入法用戶詞庫(kù) 4 2 3 2 搜索引擎查詢?nèi)罩?7 2 3 3 媒體常用字表 9 2 4 常用七千字在三個(gè)數(shù)據(jù)集中的分布情況 12 2 4 1 常用七千字在用戶詞庫(kù)中的分布 12 2 4 2 常用七千字在查詢?nèi)罩局械姆植?13 2 4 3 常用七千字在媒體字表中的分布 13 2 5 不同數(shù)據(jù)集之間單字分布比較 14 2 5 1 用戶詞庫(kù)與查詢?nèi)罩締巫址植急容^ 14 2 5 2 用戶詞庫(kù)與媒體字表比較 15 2 5 3 查詢?nèi)罩九c媒體字表比較 16 2 6 小結(jié) 17 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 19 3 1 實(shí)驗(yàn)概述 19 3 2 數(shù)據(jù)說(shuō)明 19 3 2 1 輸入法用戶詞庫(kù) 19 3 2 2 搜索引擎查詢?nèi)罩?19 3 2 3 其他數(shù)據(jù) 19 3 3 輸入法用戶詞庫(kù)用詞情況分析 20 目 錄 IV 3 3 1 總體情況 20 3 3 2 三千常用詞分布情況 24 3 4 查詢?nèi)罩居迷~情況分析 28 3 4 1 總體情況 28 3 4 2 三千常用詞分布情況 42 3 5 小結(jié) 46 第 4 章 基于輸入法用戶詞庫(kù)和查詢?nèi)罩镜?wiki 47 4 1 實(shí)驗(yàn)概述 47 4 2 數(shù)據(jù)介紹 47 4 2 1 輸入法用戶詞庫(kù)和查詢?nèi)罩?47 4 2 2 Wiki 鏈接詞數(shù)據(jù) 47 4 2 3 Sogout 網(wǎng)頁(yè)串頻數(shù)據(jù) 48 4 3 Wiki 中文鏈接詞條在不同數(shù)據(jù)集下的分布情況 48 4 3 1 Wiki 中文鏈接詞條在輸入法用戶詞庫(kù)的分布 48 4 3 2 Wiki 中文鏈接詞條在查詢?nèi)罩镜姆植?49 4 3 3 Wiki 中文鏈接詞條在 Sogout 串頻數(shù)據(jù)的分布 51 4 3 4 小結(jié) 53 4 4 基于不同數(shù)據(jù)集的 Wiki 常用詞條 53 4 5 小結(jié) 62 第 5 章 基于輸入法輸入數(shù)據(jù)的常見(jiàn)拼音錯(cuò)誤模式抽取 63 5 1 實(shí)驗(yàn)背景概述 63 5 2 數(shù)據(jù)介紹 63 5 2 1 小白狗輸入法數(shù)據(jù) 63 5 2 2 大白狗輸入法數(shù)據(jù) 64 5 3 錯(cuò)誤拼音模式抽取方法 65 5 3 1 小白狗輸入法數(shù)據(jù)錯(cuò)誤對(duì)抽取方法 65 5 3 2 大白狗輸入法數(shù)據(jù)錯(cuò)誤對(duì)抽取方法 66 5 3 3 從錯(cuò)誤對(duì)抽取錯(cuò)誤模式的方法 67 5 4 實(shí)驗(yàn)結(jié)果及分析 67 5 4 1 小白狗數(shù)據(jù) 67 目 錄 V 5 4 2 大白狗數(shù)據(jù) 69 5 4 3 實(shí)驗(yàn)結(jié)果分析 71 5 5 小結(jié) 74 第 6 章 女書拼音輸入法的設(shè)計(jì)與實(shí)現(xiàn) 76 6 1 背景概述 76 6 2 Win32 平臺(tái)的 IME 機(jī)制介紹 77 6 3 女書拼音輸入法的實(shí)現(xiàn)原理 79 6 4 小結(jié) 80 第 7 章 結(jié)論 82 7 1 論文成果總結(jié) 82 7 2 課題研究展望 82 參考文獻(xiàn) 84 致謝與聲明 85 個(gè)人簡(jiǎn)歷 在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 86 第 1 章 引言 1 第1章 引言 1 1 研究背景 隨著網(wǎng)絡(luò)的發(fā)展 信息傳播的量和速度都顯著提高 根據(jù)最新統(tǒng)計(jì) 中國(guó) 網(wǎng)民數(shù)量已經(jīng)達(dá)到 3 84 億 互聯(lián)網(wǎng)普及率為 28 9 1 2 這種信息的高速發(fā)展 對(duì)現(xiàn)有的語(yǔ)言造成了很大影響 就漢語(yǔ)來(lái)說(shuō) 每年都有很多新鮮詞匯熱門詞匯 誕生并傳播 逐漸形成了一種特有的網(wǎng)絡(luò)語(yǔ)言 網(wǎng)絡(luò)語(yǔ)言也在逐漸地影響著平 時(shí)生活中使用的語(yǔ)言 因此研究網(wǎng)絡(luò)中的語(yǔ)言狀況和對(duì)生活中語(yǔ)言的影響成為 一種迫切的需求 漢字輸入法是漢語(yǔ)使用者在計(jì)算機(jī)中輸入漢字的工具 也是網(wǎng)絡(luò)中漢語(yǔ)語(yǔ) 言的輸入方式 漢字輸入法包括拼音輸入法 五筆輸入法 聯(lián)想輸入法等多種 隨著技術(shù)的發(fā)展 拼音輸入法由于其易學(xué)易用性逐漸成為主流 輸入法作為計(jì) 算機(jī)上最常用的輸入中文的工具 其使用情況可以視為計(jì)算機(jī)上中文使用情況 的體現(xiàn) 1 2 研究現(xiàn)狀 針對(duì)漢語(yǔ)在網(wǎng)絡(luò)上的使用 也已經(jīng)有一些統(tǒng)計(jì)分析 3 主要針對(duì)若干大型 網(wǎng)站上的文本進(jìn)行字 詞的統(tǒng)計(jì)分析 也有針對(duì)中文搜索引擎的用戶行為進(jìn)行 研究的工作 4 在中文搜索引擎用戶行為分析的基礎(chǔ)之上 其他工作也得以展 開(kāi)和拓展 7 相比網(wǎng)絡(luò)文本 輸入法是用戶在網(wǎng)絡(luò)上使用中文更直接的工具 而通過(guò)輸入法研究中文用戶行為的工作非常稀少 這可能有以下兩個(gè)原因 一 是中國(guó) IT 產(chǎn)業(yè)發(fā)展迅猛 從較薄弱的基礎(chǔ)迅速發(fā)展為具有巨大市場(chǎng)價(jià)值的產(chǎn) 業(yè) 許多工作尚未跟進(jìn) 二是關(guān)于用戶輸入法行為的數(shù)據(jù)非常稀少 2006 年 6 月搜狗公司推出了搜狗拼音輸入法 是第一個(gè)問(wèn)世的互聯(lián)網(wǎng)輸入 法 互聯(lián)網(wǎng)輸入法即是用戶可以通過(guò)網(wǎng)絡(luò)及時(shí)更新詞庫(kù) 并且可以將自己的詞 庫(kù)上傳到服務(wù)器中 互聯(lián)網(wǎng)輸入法的誕生促進(jìn)了輸入法的發(fā)展 并且通過(guò)網(wǎng)絡(luò) 收集到大量的用戶輸入數(shù)據(jù) 搜狗拼音輸入法注冊(cè)用戶詞庫(kù)規(guī)模已經(jīng)達(dá)到 100 萬(wàn)用戶 為輸入法中語(yǔ)言情況的研究提供了條件 搜狗拼音輸入法是第一個(gè) 第 1 章 引言 2 問(wèn)世的互聯(lián)網(wǎng)輸入法 其用戶詞庫(kù)也是第一個(gè)基于互聯(lián)網(wǎng)的輸入法用戶數(shù)據(jù)集 合 用戶在用輸入法輸入中文時(shí)會(huì)產(chǎn)生各種錯(cuò)誤 對(duì)這些輸入錯(cuò)誤進(jìn)行分析研 究有助于提高輸入法的使用效果 目前基于英文等字母語(yǔ)言的自動(dòng)糾錯(cuò)研究已 經(jīng)有一定歷史 2000 年就出現(xiàn)了經(jīng)典的噪聲信道錯(cuò)誤模型 5 基于大規(guī)模語(yǔ)料 的自動(dòng)糾錯(cuò)也得到了較好的結(jié)果 6 由于各種原因 中文輸入時(shí)的錯(cuò)誤研究還 非常稀少 1 3 本文的主要內(nèi)容與貢獻(xiàn) 本文主要可以分為兩個(gè)部分 第一部分 通過(guò)搜狗公司提供的輸入法用戶 詞庫(kù)數(shù)據(jù) 搜索引擎查詢?nèi)罩竞推渌F(xiàn)有數(shù)據(jù) 對(duì)輸入法用戶使用的語(yǔ)言狀況 進(jìn)行統(tǒng)計(jì)分析 并與普通話常用詞等數(shù)據(jù)進(jìn)行比較 分析網(wǎng)絡(luò)中的語(yǔ)言變化發(fā) 展 最后基于 Wiki 數(shù)據(jù) 進(jìn)行了中文常見(jiàn)詞條的選取排序?qū)嶒?yàn) 并對(duì)實(shí)驗(yàn)結(jié)果 進(jìn)行分析 第一部分主要包括第二章 第三章 第四章 第二章主要介紹了用 戶詞庫(kù)和查詢?nèi)罩局袉巫质褂们闆r分析 并與其他數(shù)據(jù)進(jìn)行對(duì)比 第三章主要 介紹了用戶詞庫(kù)和查詢?nèi)罩局性~的使用情況 第四章論述了利用不同數(shù)據(jù)集尋 找 Wiki 中文常見(jiàn)詞條的方法并分析結(jié)果 第二部分主要包括第五章和第六章 第五章介紹利用輸入法用戶輸入序列 的數(shù)據(jù) 嘗試了若干種抽取常見(jiàn)拼音錯(cuò)誤模式的方法 并對(duì)結(jié)果進(jìn)行了分析 第六章介紹了在對(duì)輸入法有一定了解的基礎(chǔ)上 實(shí)現(xiàn)女書拼音輸入法的原理 最后第七章對(duì)之前的章節(jié)進(jìn)行總結(jié) 將所得結(jié)論進(jìn)行整理 并介紹了將來(lái) 的研究計(jì)劃 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 3 第2章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 2 1 實(shí)驗(yàn)概述 本章主要研究了輸入法用戶詞庫(kù)和搜索引擎查詢?nèi)罩局械膯巫质褂们闆r 以及中文常用七千字在用戶詞庫(kù)和查詢?nèi)罩局械姆植?對(duì)比了中文傳統(tǒng)常用字 在網(wǎng)絡(luò)環(huán)境中使用的變化 另外對(duì)用戶詞庫(kù) 查詢?nèi)罩?媒體常用字表三個(gè)數(shù) 據(jù)做了比較 2 2 數(shù)據(jù)說(shuō)明 輸入法用戶詞庫(kù)數(shù)據(jù)為搜狗輸入法 2006 9 5 推出正式 1 0 版 注冊(cè)用戶的 輸入數(shù)據(jù) 記錄了所有用戶輸入的詞條和次數(shù) 用戶數(shù)約 90 多萬(wàn) 本實(shí)驗(yàn)使用 的是截至 2008 年 8 月 21 日的用戶詞庫(kù) 記錄方法為用戶使用輸入法上屏?xí)r的 詞條 比如用戶輸入 中國(guó) 則記錄中國(guó) 如果用戶輸入整句 我在哪里 則把 我在哪里 作為一個(gè)詞條記錄 由于分析常用字分布情況 因此把所有 詞條拆成單字統(tǒng)計(jì) 過(guò)濾了詞頻過(guò)小的詞條 總字頻 76775392841 搜狗輸入 法可以選擇用 sohu 賬號(hào)登陸 注冊(cè)的用戶才會(huì)記錄詞庫(kù) 圖 2 1 是搜狗輸入法 登陸界面 圖2 1 搜狗輸入法登陸界面 搜索引擎查詢?nèi)罩臼?sogou 搜索引擎記錄的用戶查詢記錄 經(jīng)過(guò)處理后只 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 4 保留了查詢?cè)~和次數(shù) 每天分別統(tǒng)計(jì) 使用的是 2008 年 5 月 21 日至 2009 年 7 月 2 日的查詢?cè)~ 同樣為了統(tǒng)計(jì)字頻將詞條拆成單字 并去掉了非中文字符 總字頻 5922947983 媒體常用字表是統(tǒng)計(jì)三家 Web 媒體的新聞?wù)Z料得到的字頻數(shù)據(jù) 共有單字 9270 個(gè) 總字頻 991717782 現(xiàn)代漢語(yǔ)通用字表 由國(guó)家語(yǔ)言文字工作委員會(huì) 中華人民共和國(guó)新聞 出版署 1988 年聯(lián)合發(fā)布 是根據(jù)中文常用字情況對(duì)漢字按級(jí)別劃分的字表 沒(méi) 有字頻信息 包括 1 級(jí)字 2500 個(gè) 2 級(jí)字 1000 個(gè) 3 級(jí)字 2500 個(gè) 后文中以 常用字 2 3 用戶詞庫(kù) 查詢?nèi)罩?媒體字表單字使用情況 2 3 1 輸入法用戶詞庫(kù) 經(jīng)過(guò)統(tǒng)計(jì)用戶詞庫(kù)中有單字 19679 個(gè) 總字頻 76775392841 一般來(lái)說(shuō) 常用漢字大約有 5 6 千左右 用戶詞庫(kù)的 19679 個(gè)單字中包含了大量繁體字 古字 異體字等 這些字一般字頻較低 字頻最高的 20 個(gè)字如表 2 1 用戶詞庫(kù)累計(jì)覆蓋率曲線如圖 2 2 用戶詞庫(kù)中 前 87 個(gè)字覆蓋了 50 的 字頻 前 431 個(gè)字覆蓋了 80 的字頻 前 808 個(gè)字覆蓋了 90 的字頻 前 1231 個(gè)字覆蓋了 95 的字頻 前 2287 個(gè)字覆蓋了 99 的字頻 常用單字占總數(shù)的 小部分 Lg 字頻 關(guān)于 Lg Rank 的曲線如圖 2 3 線性相關(guān)系數(shù) 0 9583 并不 是很好地符合 Zipf 定律 圖 2 4 是每個(gè)單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘 積變化較大 不是很符合 Zipf 定律 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 5 圖2 2 用戶詞庫(kù)累計(jì)覆蓋率曲線 表2 1 用戶詞庫(kù)字頻前20的字 字 字頻 累計(jì)字頻 Rank 覆蓋率 累計(jì)覆蓋率 我 2044570926 2044570926 1 2 66 2 66 你 1957197208 4001768134 2 2 55 5 21 不 1849362646 5851130780 3 2 41 7 62 的 1729427093 7580557873 4 2 25 9 87 是 1443644870 9024202743 5 1 88 11 75 了 1366191672 10390394415 6 1 78 13 53 么 945551856 11335946271 7 1 23 14 77 有 914338373 12250284644 8 1 19 15 96 好 8821771049 1 15 17 11 個(gè) 79479109110 1 04 18 14 一 78668742411 1 02 19 16 沒(méi) 76993906112 1 00 20 17 在 740057079 16223936403 13 0 96 21 13 就 692819581 16916755984 14 0 90 22 03 呵 66028869815 0 86 22 89 那 65138555516 0 85 23 74 要 58673317217 0 76 24 51 這 549162387 19364325796 18 0 72 25 22 來(lái) 546331533 19910657329 19 0 71 25 93 看 542732193 20453389522 20 0 71 26 64 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 6 圖2 3 用戶詞庫(kù)Lg 字頻 關(guān)于Lg 字頻Rank 的曲線 圖2 4 用戶詞庫(kù)Rank Pr曲線 通過(guò)觀察發(fā)現(xiàn) 用戶詞庫(kù)中字頻較高的字多為口頭語(yǔ)中常用字 比如代詞 語(yǔ)氣詞 助詞等 有實(shí)際意義的較少 這與網(wǎng)絡(luò)應(yīng)用比如聊天工具 論壇成為 輸入法的主要應(yīng)用渠道有關(guān) 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 7 2 3 2 搜索引擎查詢?nèi)罩?查詢?nèi)罩局杏袉巫?17715 個(gè) 總字頻 5922947983 同樣包含很多繁體字 古字 異體字等 字頻最高的 20 個(gè)字如表 2 2 表2 2 查詢?nèi)罩咀诸l前20的單字 字 字頻 累計(jì)字頻 Rank 覆蓋率 累計(jì)覆蓋率 網(wǎng) 88756312 88756312 1 1 50 1 50 人 63484646 152240958 2 1 07 2 57 的 56817576 209058534 3 0 96 3 53 電 56496830 265555364 4 0 95 4 48 小 51567707 317123071 5 0 87 5 35 天 49460201 366583272 6 0 84 6 19 下 48611819 415195091 7 0 82 7 01 色 46581866 461776957 8 0 79 7 80 圖 45773945 507550902 9 0 77 8 57 影 43526275 551077177 10 0 73 9 30 載 40495981 591573158 11 0 68 9 99 大 38612241 630185399 12 0 65 10 64 女 37353917 667539316 13 0 63 11 27 情 36121742 703661058 14 0 61 11 88 片 35055151 738716209 15 0 59 12 47 中 32249772 770965981 16 0 54 13 02 國(guó) 32125245 803091226 17 0 54 13 56 美 28335347 831426573 18 0 48 14 04 愛(ài) 27791941 859218514 19 0 47 14 51 學(xué) 27522927 886741441 20 0 46 14 97 查詢?nèi)罩纠塾?jì)覆蓋率曲線如圖 2 5 前 188 個(gè)字覆蓋了 50 字頻 前 658 個(gè)字覆蓋了 80 字頻 前 1102 個(gè)字覆蓋了 90 字頻 前 1577 個(gè)字覆蓋了 95 的字頻 前 2842 個(gè)字覆蓋了 99 的字頻 可見(jiàn) 無(wú)論是用戶詞庫(kù)還是查詢?nèi)罩?都含有大量低頻字 而且高頻字使用比較集中 尤其是用戶詞庫(kù) 86 個(gè)字占據(jù) 了 50 的字頻 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 8 圖2 5 查詢?nèi)罩纠塾?jì)覆蓋率曲線 Lg 字頻 關(guān)于 Lg Rank 的曲線如圖 2 6 線性相關(guān)系數(shù) 0 9395 曲線形狀和 用戶詞庫(kù)類似 并不很好地符合 Zipf 定律 圖 2 7 是每個(gè)單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘積變化較大 不是很符合 Zipf 定律 圖2 6 查詢?nèi)罩綥g 字頻 關(guān)于Lg Rank 的曲線 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 9 圖2 7 查詢?nèi)罩綬ank Pr曲線 由于使用目的不同 查詢?nèi)罩局杏袑?shí)際意義的字頻較高 虛詞的字頻相對(duì) 用戶詞庫(kù)低很多 字頻較高的字多為名詞 形容詞的組成部分 這是與搜索引 擎的功能相符的 2 3 3 媒體常用字表 媒體字表含有單字 9270 個(gè) 總字頻 991717782 字頻最高的前 20 個(gè)字如 表 2 3 累計(jì)覆蓋率曲線如圖 2 8 前 181 個(gè)字覆蓋了 50 前 604 個(gè)字覆蓋了 80 前 970 個(gè)字覆蓋了 90 前 1372 個(gè)字覆蓋了 95 前 2381 個(gè)字覆蓋了 99 三個(gè)數(shù)據(jù)集對(duì)比來(lái)看 用戶詞庫(kù)用字最集中 Log 字頻 關(guān)于 Log Rank 的曲線如圖 2 9 線性相關(guān)系數(shù) 0 8918 也不是很 好地符合 Zipf 定律 圖 2 10 是每個(gè)單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘積 變化較大 不是很符合 Zipf 定律 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 10 圖2 8 媒體字表累計(jì)覆蓋率 表2 3 媒體字表字頻前20的單字 字 字頻 累計(jì)字頻 Rank 覆蓋率 累計(jì)覆蓋率 的 31651968 31651968 1 3 19 3 19 一 11018129 42670097 2 1 11 4 30 在 9270997 51941094 3 0 93 5 24 是 8733942 60675036 4 0 88 6 12 了 7937207 68612243 5 0 80 6 92 人 7578071 76190314 6 0 76 7 68 中 7545770 83736084 7 0 76 8 44 有 7214779 90950863 8 0 73 9 17 國(guó) 7037836 97988699 9 0 71 9 88 不 6754475 104743174 10 0 68 10 56 大 6493734 111236908 11 0 65 11 22 上 5600572 116837480 12 0 56 11 78 年 5402142 122239622 13 0 54 12 33 為 5251844 127491466 14 0 53 12 86 這 4857114 132348580 15 0 49 13 35 個(gè) 4807773 137156353 16 0 48 13 83 和 4752130 141908483 17 0 48 14 31 會(huì) 4528968 146437451 18 0 46 14 77 時(shí) 4432377 150869828 19 0 45 15 21 到 4293029 155162857 20 0 43 15 65 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 11 圖2 9 媒體字表Lg 字頻 關(guān)于Lg Rank 的曲線 圖2 10 媒體字表Rank Pr曲線 三組數(shù)據(jù)字頻覆蓋情況總結(jié)如表 2 4 三組數(shù)據(jù)的共同特點(diǎn)是高頻字使用集 中 用戶詞庫(kù)和查詢?nèi)罩倦m然總字?jǐn)?shù)很大 但是包含了大量非常用字 使用相 對(duì)更集中一些 用戶詞庫(kù)單字使用最為集中 少量的單字即可達(dá)到很高覆蓋率 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 12 表2 4 累計(jì)覆蓋率所用字?jǐn)?shù)對(duì)比 覆蓋相應(yīng)覆蓋率所 用字?jǐn)?shù) 用戶詞庫(kù) 查詢?nèi)罩?媒體字表 50 87 188 181 80 431 658 604 90 808 1102 970 95 1231 1577 1372 99 2287 2842 2381 總字?jǐn)?shù) 19679 17715 9270 2 4 常用七千字在三個(gè)數(shù)據(jù)集中的分布情況 2 4 1 常用七千字在用戶詞庫(kù)中的分布 常用七千字中 有 6995 個(gè)在用戶詞庫(kù)中出現(xiàn) 未出現(xiàn)的常用字如下 轪 韨 饻 绤 鹝 5 個(gè)都是 3 級(jí)字 而且確實(shí)在日常生活中很少使用 比較 1 級(jí)字 2500 個(gè)與用戶詞庫(kù)中字頻前 2500 個(gè)單字 共有部分有 2138 個(gè) 字 非共有部分 362 個(gè)字 共有部分占 85 52 用戶詞庫(kù)獨(dú)有的 362 個(gè)字中 有很多語(yǔ)氣詞 比如呵 嘛 嗯 嘿 哎 咯 哦 哇等 還有一些方言用字 比如冇等 還有一些網(wǎng)絡(luò)流行字和 火星文 比如囧 伱 莪等 還有一些 侮辱性 淫穢的單字 常用字獨(dú)有的 362 個(gè)字中 比較多的是一些使用范圍較 窄 字意比較具體的字 比如壩 瓣 鞭等 比較 1 2 級(jí)字 3500 個(gè)與用戶詞庫(kù)前 3500 個(gè)單字 共有部分有 3048 個(gè) 非共有部分 452 個(gè) 共有部分占 87 09 用戶詞庫(kù)獨(dú)有部分的成分與 2500 個(gè) 字的情況基本一致 常用字獨(dú)有的 452 個(gè)字中 1 級(jí)字 56 個(gè) 2 級(jí)字 396 個(gè) 1 級(jí)字未覆蓋部分減少很多 比較 1 2 3 級(jí)字 7000 個(gè)與用戶詞庫(kù)前 7000 個(gè)單字 共有部分有 5821 個(gè) 非共有部分 1179 個(gè) 共有部分占 83 16 用戶詞庫(kù)獨(dú)有的 1179 個(gè)字中 語(yǔ)氣 詞大量減少 主要組成部分為 火星文 另外有一些繁體字和粗俗淫穢字意 的字 常用字的獨(dú)有部分中 2 級(jí)字只有兩個(gè)秕 蛉 其余都是 3 級(jí)字 可見(jiàn) 在前 7000 常用字的范圍內(nèi) 用戶詞庫(kù)和常用七千字的差別主要在于 3 級(jí)字 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 13 2 4 2 常用七千字在查詢?nèi)罩局械姆植?常用七千字中 有 6995 個(gè)在查詢?nèi)罩局谐霈F(xiàn) 未出現(xiàn)的 5 個(gè)字如下 拚 伋 阘 饻 馌 5 個(gè)都是 3 級(jí)字 其中饻也未在用戶詞庫(kù)中出現(xiàn) 比較 1 級(jí)字 2500 個(gè)與查詢?nèi)罩局星?2500 個(gè)字 共有部分有 2038 個(gè) 非共 有部分 462 個(gè) 共有部分占 81 52 略低于用戶詞庫(kù) 查詢?nèi)罩镜莫?dú)有部分中 與用戶詞庫(kù)不同 多是有實(shí)際意義的字 可能是新興高頻字 比如倫 聊 婷 炫等 另外還有一些低俗下流字意的字 常用字獨(dú)有部分主要還是使用面較窄 的字 比較 1 2 級(jí)字 3500 個(gè)與查詢?nèi)罩厩?3500 個(gè)字 共有部分有 2883 個(gè) 非 共有部分 617 個(gè) 共有部分占 82 37 低于用戶詞庫(kù) 查詢?nèi)罩惊?dú)有部分情況 與前 2500 字相似 常用字獨(dú)有部分中 1 級(jí)字 154 個(gè) 2 級(jí)字 463 個(gè) 1 級(jí)字 比例相比用戶詞庫(kù)較大 比較 1 2 3 級(jí)字 7000 個(gè)與查詢?nèi)罩厩?7000 個(gè)字 共有部分有 5682 個(gè) 非共有部分 1318 個(gè) 共有部分占 81 17 低于用戶詞庫(kù) 查詢?nèi)罩镜莫?dú)有部 分中 與用戶詞庫(kù)類似 有較多低俗下流字意的字和 火星文 繁體字 常 用字獨(dú)有部分中 2 級(jí)字 11 個(gè) 秕 盹 踱 餒 譬 嘁 迄 秫 锨 舀 諄 其余都是 3 級(jí)字 與用戶詞庫(kù)類似 在前 7000 常用字的范圍內(nèi) 查詢?nèi)罩竞统S闷咔ё值牟?別主要在于 3 級(jí)字 與用戶詞庫(kù)相比 查詢?nèi)罩居捎谄涫褂媚康牡膬A向性 多 為有具體意義的查詢?cè)~ 因此與常用七千字的相關(guān)度低于用戶詞庫(kù) 2 4 3 常用七千字在媒體字表中的分布 常用七千字中 有 6803 個(gè)在查詢?nèi)罩局谐霈F(xiàn) 未出現(xiàn)的 197 個(gè)字全部為 3 級(jí)字 出現(xiàn)的常用字較少可能和媒體字表字?jǐn)?shù)較少只有 9270 個(gè)有關(guān) 比較 1 級(jí)字 2500 個(gè)與媒體字表中前 2500 個(gè)字 共有部分有 2156 個(gè) 非共 有部分 344 個(gè) 共有部分占 86 24 高于用戶詞庫(kù)和查詢?nèi)罩?媒體字表的獨(dú) 有部分中 與用戶詞庫(kù)不同 多是有實(shí)際意義的字 其中有不少是中外人名 地名的組成漢字 比如薩 諾 迪 菲 廖等 比較 1 2 級(jí)字 3500 個(gè)與媒體字表前 3500 個(gè)字 共有部分有 3103 個(gè) 非 共有部分 397 個(gè) 共有部分占 88 66 高于用戶詞庫(kù)和查詢?nèi)罩?媒體字表獨(dú) 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 14 有部分情況與前 2500 字相似 常用字獨(dú)有部分中 1 級(jí)字 49 個(gè) 2 級(jí)字 348 個(gè) 1 級(jí)字比例相比用戶詞庫(kù)和查詢?nèi)罩据^小 比較 1 2 3 級(jí)字 7000 個(gè)與媒體字表前 7000 個(gè)字 共有部分有 6391 個(gè) 非共有部分 609 個(gè) 共有部分占 91 30 高于用戶詞庫(kù)和查詢?nèi)罩?媒體字表 的獨(dú)有部分中 有較多繁體字 常用字獨(dú)有部分中 都是 3 級(jí)字 媒體字表由于來(lái)源較正式 因此和常用七千字的相關(guān)程度較高 常用七千字在三個(gè)數(shù)據(jù)集中的分布情況總結(jié)對(duì)比如表 2 5 表2 5 常用七千字分布情況對(duì)比 各部分對(duì)應(yīng)共有部分字?jǐn)?shù) 用戶詞庫(kù) 查詢?nèi)罩?媒體字表 前 2500 2138 2038 2156 前 3500 3048 2883 3103 前 7000 5821 5682 6391 全部 6995 6995 6803 2 5 不同數(shù)據(jù)集之間單字分布比較 2 5 1 用戶詞庫(kù)與查詢?nèi)罩締巫址植急容^ 用戶詞庫(kù)與查詢?nèi)罩镜墓灿胁糠止灿?16694 個(gè) 可見(jiàn)大部分用字相同 共 有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8214 共有部分在兩個(gè)數(shù)據(jù)集中 Rank 相差大的幾乎都是非常用字 在用戶詞庫(kù)的獨(dú)有部分中 主要包含各種繁體字 在查詢?nèi)罩镜莫?dú)有部分中 主要包含生僻字 比較兩個(gè)數(shù)據(jù)前 2500 個(gè)字 共有部分 2141 個(gè) 非共有部分 359 個(gè) 共有 部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6593 用戶詞庫(kù)的獨(dú)有部分中 主要包含 語(yǔ)氣字和較口語(yǔ)化的字 以及少量網(wǎng)絡(luò)流行字等 查詢?nèi)罩镜莫?dú)有部分中 有 實(shí)際意義的字較多 還有不少低級(jí)下流字意的字 比較兩個(gè)數(shù)據(jù)前3500個(gè)字 共有部分有3038個(gè) 共有部分Rank的Spearman 相關(guān)系數(shù)為 0 7568 用戶詞庫(kù)獨(dú)有部分中 還是主要包含語(yǔ)氣字 網(wǎng)絡(luò)流行字 等 查詢?nèi)罩惊?dú)有部分中多為有實(shí)際意義的字 比較前 7000 個(gè)字 共有部分有 5782 個(gè) 共有部分 Rank 的 Spearman 相關(guān) 系數(shù)為 0 8763 用戶詞庫(kù)獨(dú)有部分中 主要是火星文和繁體字 查詢?nèi)罩惊?dú)有 部分中 主要是繁體字等 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 15 比較兩組數(shù)據(jù)中覆蓋 80 字頻的集合 用戶詞庫(kù) 431 字 查詢?nèi)罩?658 字 共有部分 294 個(gè)字 用戶詞庫(kù)獨(dú)有部分 137 字 查詢?nèi)罩惊?dú)有部分 364 字 共 有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 1028 說(shuō)明共有部分差異較大 與之前 類似 用戶詞庫(kù)獨(dú)有部分中包含較多口語(yǔ)化的字 比如語(yǔ)氣詞 比較覆蓋 90 字頻的集合 用戶詞庫(kù) 808 字 查詢?nèi)罩?1102 字 共有部分 628 字 用戶詞庫(kù)獨(dú)有部分 181 字 查詢?nèi)罩惊?dú)有部分 475 字 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 3300 共有部分差異較大 獨(dú)有部分的分布情況和 80 時(shí)類似 比較覆蓋 99 字頻的集合 用戶詞庫(kù) 2287 字 查詢?nèi)罩?2842 字 共有部 分 2095 字 用戶詞庫(kù)獨(dú)有部分 192 字 查詢?nèi)罩惊?dú)有部分 747 字 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6305 相關(guān)性有所提高 獨(dú)有部分分布情況和 之前仍然類似 用戶詞庫(kù)中高頻字有較多網(wǎng)絡(luò)流行因素 語(yǔ)氣字 流行詞使用的字 火星 文等較多 查詢?nèi)罩局杏袑?shí)際字意 有助于查詢的字較多 兩者在高頻字段的 相關(guān)性不高 2 5 2 用戶詞庫(kù)與媒體字表比較 媒體字表與用戶詞庫(kù)共有部分 9215 字 占媒體字表絕大部分 說(shuō)明大部分 用字相同 一些非常用字在兩者中的Rank相差較大 共有部分Rank的Spearman 相關(guān)系數(shù)為 0 9254 高于查詢?nèi)罩九c用戶詞庫(kù) 比較用戶詞庫(kù)前 2500 個(gè)字與媒體字表 共有部分有 2216 個(gè) 獨(dú)有部分 284 個(gè) 共有部分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān) 系數(shù)為 0 7882 高于用戶詞庫(kù)與查詢?nèi)罩厩?2500 的相關(guān)系數(shù) 用戶詞庫(kù)的獨(dú)有 部分中 與之前類似 主要是語(yǔ)氣字以及繁體字 火星文等 媒體字表的獨(dú)有 部分中的字相對(duì)比較有實(shí)際意義 比較兩者的前 3500 個(gè)字 共有部分有 3162 個(gè) 獨(dú)有部分 338 個(gè) 共有部 分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8437 高于用戶詞庫(kù)與查詢?nèi)罩厩?500的相關(guān)系數(shù) 獨(dú)有部分的組成與前2500 字比較中的情況類似 比較兩者的前 7000 個(gè)字 共有部分有 6013 個(gè) 獨(dú)有部分 987 個(gè) 共有部 分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 16 0 9156 高于用戶詞庫(kù)與查詢?nèi)罩厩?7000 的相關(guān)系數(shù) 獨(dú)有部分用戶詞庫(kù)主要 包含火星文等 媒體字表主要是非常用的生僻字 比較兩者的前 80 部分 用戶詞庫(kù) 431 字 媒體字表 604 字 共有部分有 343 個(gè) 用戶詞庫(kù)獨(dú)有部分 88 個(gè) 媒體字表獨(dú)有部分 261 個(gè) 共有部分?jǐn)?shù)量高 于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 4656 高于 用戶詞庫(kù)與查詢?nèi)罩镜南嚓P(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 90 部分 用戶詞庫(kù) 808 字 媒體字表 970 字 共有部分有 669 個(gè) 用戶詞庫(kù)獨(dú)有部分 139 個(gè) 媒體字表獨(dú)有部分 301 個(gè) 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 5644 高 于用戶詞庫(kù)與查詢?nèi)罩镜南嚓P(guān)系數(shù) 比較兩者的前 99 部分 用戶詞庫(kù) 2287 字 媒體字表 2381 字 共有部分 有 2039 個(gè) 用戶詞庫(kù)獨(dú)有部分 248 個(gè) 媒體字表獨(dú)有部分 342 個(gè) 共有部分?jǐn)?shù) 量略低于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 7787 高于用戶詞庫(kù)與查詢?nèi)罩镜南嚓P(guān)系數(shù) 由于媒體字表來(lái)源比較正式 相比用戶詞庫(kù) 有實(shí)際字意的字頻度較高 高頻字段兩者的相關(guān)性不高 相比用戶詞庫(kù)與查詢?nèi)罩镜南嚓P(guān)性要高 2 5 3 查詢?nèi)罩九c媒體字表比較 媒體字表與查詢?nèi)罩竟灿胁糠?8453 字 占媒體字表大部分 說(shuō)明大部分用 字相同 一些非常用字在兩者中的 Rank 相差較大 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 9145 高于查詢?nèi)罩九c用戶詞庫(kù) 比較查詢?nèi)罩厩?2500 個(gè)字與媒體字表 共有部分有 2147 個(gè) 非共有部分 353 個(gè) 共有部分?jǐn)?shù)量略高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6579 略低于查詢?nèi)罩九c用戶詞庫(kù)前 2500 的相關(guān)系數(shù) 查詢?nèi)罩?的獨(dú)有部分中 與之前類似 包含一些低俗下流的字等 媒體字表的獨(dú)有部分 中的字相對(duì)比較有實(shí)際意義 比較兩者的前 3500 個(gè)字 共有部分有 3023 個(gè) 非共有部分 477 個(gè) 共有 部分?jǐn)?shù)量略低于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 7547 略低于查詢?nèi)罩九c用戶詞庫(kù)前 3500 的相關(guān)系數(shù) 非共有部分部分的組 成與前 2500 字比較中的情況類似 比較兩者的前 7000 個(gè)字 共有部分有 5781 個(gè) 非共有部分 1219 個(gè) 共有 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 17 部分?jǐn)?shù)量略低于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8760 略低于查詢?nèi)罩九c用戶詞庫(kù)前 7000 的相關(guān)系數(shù) 獨(dú)有部分查詢?nèi)罩局?要包含繁體字和臟話等 比較兩者的前 80 部分 查詢?nèi)罩?658 字 媒體字表 604 字 共有部分有 390 個(gè) 查詢?nèi)罩惊?dú)有部分 268 個(gè) 媒體字表獨(dú)有部分 214 個(gè) 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 3129 高 于查詢?nèi)罩九c用戶詞庫(kù)的相關(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 90 部分 查詢?nèi)罩?1102 字 媒體字表 970 字 共有部分有 751 個(gè) 查詢?nèi)罩惊?dú)有部分 351 個(gè) 媒體字表獨(dú)有部分 219 個(gè) 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 4160 高 于查詢?nèi)罩九c用戶詞庫(kù)的相關(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 99 部分 查詢?nèi)罩?2842 字 媒體字表 2381 字 共有部分 有 2177 個(gè) 查詢?nèi)罩惊?dú)有部分 665 個(gè) 媒體字表獨(dú)有部分 204 個(gè) 共有部分?jǐn)?shù) 量高于查詢?nèi)罩九c用戶詞庫(kù) 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6561 高于查詢?nèi)罩九c用戶詞庫(kù)的相關(guān)系數(shù) 查詢?nèi)罩九c媒體字表的相關(guān)程度也不高 比用戶詞庫(kù)與媒體字表的相關(guān)程 度要低 將三個(gè)數(shù)據(jù)集比較的結(jié)果整理如表 2 6 表2 6 三個(gè)數(shù)據(jù)集比較結(jié)果整理 共有部分字?jǐn)?shù)和相關(guān) 系數(shù) 用戶詞庫(kù)與查詢?nèi)?志 用戶詞庫(kù)與媒體字 表 查詢?nèi)罩九c媒體字 表 前 80 294 0 1028 343 0 4656 390 0 3129 前 90 628 0 3300 669 0 5644 751 0 4160 前 99 2095 0 6305 2039 0 7787 2177 0 6561 前 2500 2141 0 6593 2216 0 7882 2147 0 6579 前 3500 3038 0 7568 3162 0 8437 3023 0 7547 前 7000 5782 0 8763 6013 0 9156 5781 0 8760 全部 16694 0 8214 9215 0 9254 8453 0 9145 2 6 小結(jié) 輸入法用戶詞庫(kù)可以看成中文用戶在電腦中使用語(yǔ)言的較直接體現(xiàn) 用字 第 2 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居米智闆r分析 18 比較生活化口語(yǔ)化 差別最大的就是語(yǔ)氣字的詞頻往往遠(yuǎn)高于其他數(shù)據(jù) 一些 在網(wǎng)絡(luò)流行的新詞包含的字在輸入法中的字頻也較高 用戶詞庫(kù)與七千常用字 的相關(guān)程度要高于查詢?nèi)罩?查詢?nèi)罩居涗洸樵冊(cè)~ 用字也是查詢?cè)~的組成部分 虛詞部分較少 有實(shí) 際意義字的字頻要高于其他數(shù)據(jù) 查詢?nèi)罩九c其他數(shù)據(jù)的相關(guān)程度也較差 媒體字表主要是書面語(yǔ)構(gòu)成 書面語(yǔ)尤其是新聞報(bào)道常用字的頻度較高 與前兩者的相關(guān)程度幾乎相當(dāng) 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 19 第3章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 3 1 實(shí)驗(yàn)概述 本章通過(guò)搜狗輸入法用戶詞庫(kù)數(shù)據(jù) 搜索引擎查詢?nèi)罩竞推渌F(xiàn)有數(shù)據(jù) 對(duì)輸入法用戶使用詞的語(yǔ)言狀況進(jìn)行統(tǒng)計(jì)分析 3 2 數(shù)據(jù)說(shuō)明 3 2 1 輸入法用戶詞庫(kù) 本實(shí)驗(yàn)使用的是搜狗輸入法 2010 年 3 月 15 日的用戶詞庫(kù)數(shù)據(jù) 該數(shù)據(jù)統(tǒng) 計(jì)了所有注冊(cè)用戶使用的詞條的用戶數(shù)和詞頻 和第二章使用數(shù)據(jù)類似 該詞 庫(kù)將用戶輸入的上屏詞條整體作為一個(gè)詞條保存 保存的詞條不一定是語(yǔ)言學(xué) 意義上的詞 用戶詞庫(kù)記錄了詞條長(zhǎng)度不超過(guò) 7 的詞條 2010 年 3 月 15 日的數(shù)據(jù)共 111659347 個(gè)詞條 總詞頻 327029776076 平均詞頻 2928 817 用戶數(shù)達(dá)到百 萬(wàn)級(jí) 3 2 2 搜索引擎查詢?nèi)罩?本實(shí)驗(yàn)使用的查詢?nèi)罩臼撬压匪阉饕娴娜罩緮?shù)據(jù) 每日統(tǒng)計(jì)在搜狗搜索 引擎上的查詢?cè)~和查詢次數(shù) 日志數(shù)據(jù)中只保留了 2 字詞至 7 字詞 對(duì)英文 數(shù)字等非漢字字符進(jìn)行了全角化處理 查詢?nèi)罩居涗浟?2009 年全年的查詢情 況 有詞條 81970629 個(gè) 總詞頻 1766113757 3 2 3 其他數(shù)據(jù) 本實(shí)驗(yàn)還使用了普通話常用三千詞詞表 8 包括 3815 個(gè)詞 該詞表發(fā)表 于 1992 年 可視為傳統(tǒng)漢語(yǔ)常用詞 可以用來(lái)與用戶詞庫(kù)等較新數(shù)據(jù)對(duì)比 該 詞條包含 1009 個(gè)單字 2571 個(gè)雙字詞 204 個(gè)三字詞 26 個(gè)四字詞 3 個(gè)五字 詞 2 個(gè)七字詞 該詞表沒(méi)有詞頻信息 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 20 3 3 輸入法用戶詞庫(kù)用詞情況分析 3 3 1 總體情況 用戶詞庫(kù)詞頻前 20 的詞條如表 3 1 表3 1 輸入法用戶詞庫(kù)詞頻前20的詞條 詞條 詞頻 用戶數(shù) Rank 啊 3990088189 3578525 1 了 3848708636 7437262 2 就 2940184432 4862211 3 在 2564723683 5028618 4 好 2474029080 4981193 5 的 2414096285 5279846 6 我 2382157145 5038798 7 有 2361758812 4993551 8 呵呵 2234793465 4683200 9 沒(méi) 2225026282 4937635 10 吧 2168180403 4866926 11 去 2075258235 4857055 12 要 1974892907 4877510 13 都 1964884870 5648914 14 那 1934999163 5344280 15 什么 1773690404 5271040 16 恩 1762991445 4409577 17 說(shuō) 1737688923 5107365 18 呢 1701677361 5851196 19 也 1694687752 4835222 20 將用戶詞庫(kù)的詞條按詞頻排序并計(jì)算累計(jì)覆蓋率 前 32000 個(gè)詞條的累計(jì) 覆蓋率曲線如圖 3 1 覆蓋總詞頻百分比所需要的詞條數(shù)和詞條數(shù)所占比例如表 3 2 可見(jiàn)輸入法用戶用詞相當(dāng)集中 不到 1 的詞條就可以覆蓋絕大多數(shù)詞頻 圖 3 2 是用戶詞庫(kù) Log 詞頻 關(guān)于 Log Rank 的曲線 線性相關(guān)系數(shù) r 0 9998 Log 詞頻 與 Log Rank 負(fù)線性相關(guān) 符合 Zipf 定律 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 21 表3 2 累計(jì)覆蓋率與所需詞條數(shù) 累計(jì)覆蓋率 所需詞條數(shù) 詞條數(shù)百分比 50 523 0 0005 60 1284 0 0011 70 3532 0 0032 80 12634 0 0113 90 93670 0 0839 95 600340 0 5377 圖3 1 用戶詞庫(kù)累計(jì)覆蓋率曲線 圖3 2 用戶詞庫(kù)Log 詞頻 關(guān)于Log Rank 的曲線 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 22 表 3 3 給出了 2010 年 3 月 15 日的用戶詞庫(kù)按不同詞長(zhǎng)統(tǒng)計(jì)的分布情況 其中單字有 2 萬(wàn)多個(gè) 遠(yuǎn)遠(yuǎn)超出常用漢字個(gè)數(shù) 常用漢字大約 2000 7000 個(gè) 這是因?yàn)橛脩粼~庫(kù)中的詞條并不標(biāo)準(zhǔn) 包含大量繁體字 異體字等 表3 3 2010 3 15用戶詞庫(kù)長(zhǎng)短詞分布 詞長(zhǎng) 詞條數(shù) 總詞頻 1 25775 129393411999 2 4061157 146987428400 3 26841194 34609501910 4 41409430 12332722427 5 24144590 2688079719 6 11761215 820903823 7 3415986 197727798 圖 3 3 是詞條數(shù)與詞條長(zhǎng)度的關(guān)系圖 從圖中可以看出 單字詞條數(shù)最少 因?yàn)橹皇菃巫謧€(gè)數(shù) 隨著詞條長(zhǎng)度上升 單字的組合增多 詞條數(shù)也相應(yīng)增多 但是不同組合能成為詞的概率也減少 3 字時(shí)詞條數(shù)增長(zhǎng)迅速 在詞條長(zhǎng)度為 4 時(shí)達(dá)到峰值 詞條長(zhǎng)度大于 4 時(shí)詞條總數(shù)開(kāi)始下降 圖3 3 用戶詞庫(kù)詞條數(shù)關(guān)于詞條長(zhǎng)度的分布 圖 3 4 是詞頻與詞條長(zhǎng)度的關(guān)系圖 雙字詞詞頻最高 單字其次 單字詞 和雙字詞的詞頻遠(yuǎn)大于多字詞 第 3 章 輸入法用戶詞庫(kù)和查詢?nèi)罩居迷~情況分析 23 圖3 4 用戶詞庫(kù)詞頻關(guān)于詞條長(zhǎng)度的分布 圖 3 5 是評(píng)價(jià)詞頻與詞長(zhǎng)的關(guān)系圖 單字的平均輸入頻度遠(yuǎn)遠(yuǎn)大于雙字詞 和多字詞 雙字詞和多字詞的平均輸入頻度幾乎不可視 圖3 5 用戶詞庫(kù)平均詞條輸入頻度關(guān)于詞條長(zhǎng)度的分布 以上數(shù)據(jù)表明 輸入法用戶在輸入時(shí)更偏向于每次輸入較短詞條而不是多 字的詞條 尤其以單字 雙字詞為主 這可能因?yàn)檩斎霑r(shí)以詞為單位的語(yǔ)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肺炎自我檢測(cè)與護(hù)理指南
- 2025年中國(guó)機(jī)械鬧鐘市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)塑料盤市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)五金燈飾架市場(chǎng)調(diào)查研究報(bào)告
- 兒童神經(jīng)母細(xì)胞瘤
- 吸痰患者護(hù)理
- 腹痛腹瀉患兒護(hù)理
- 2025至2030年中國(guó)高效多層防護(hù)壓敏電阻行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國(guó)音箱線行業(yè)發(fā)展研究報(bào)告
- 兒童一型糖尿病飲食治療
- 水權(quán)與水資源管理考試試題及答案
- 公路防汛安全培訓(xùn)課件
- 【8生 會(huì)考】2022-2024年安徽省初中(八年級(jí))中考初二會(huì)考生物試卷(3年真題)
- 安徽卓越縣中聯(lián)盟2024-2025學(xué)年高三下學(xué)期5月份檢測(cè)物理試題+答案
- 2024-2025學(xué)年湖北省十堰市高二歷史下學(xué)期6月期末調(diào)研考試試卷(附答案)
- 2025至2030中國(guó)養(yǎng)發(fā)服務(wù)行業(yè)營(yíng)銷策略及競(jìng)爭(zhēng)格局研究報(bào)告
- 2025年全國(guó)燃?xì)獍踩a(chǎn)管理人員理論考試筆試試題(含答案)
- 計(jì)量員培訓(xùn)課件
- 游泳館安全培訓(xùn)課件
- 體育保健學(xué)復(fù)試題及答案
- 2025年中考?xì)v史專題復(fù)習(xí)講義(含練習(xí)題及答案)
評(píng)論
0/150
提交評(píng)論