【基于LDA模型的科普政策文本主題分析案例6900字】_第1頁
【基于LDA模型的科普政策文本主題分析案例6900字】_第2頁
【基于LDA模型的科普政策文本主題分析案例6900字】_第3頁
【基于LDA模型的科普政策文本主題分析案例6900字】_第4頁
【基于LDA模型的科普政策文本主題分析案例6900字】_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于LDA模型的科普政策文本主題分析案例綜述目錄TOC\o"1-3"\h\u19812基于LDA模型的科普政策文本主題分析案例綜述 183791.1文本數據預處理 1281781.2科普政策文本主題分析 2108581.3科普政策文本主題演變分析 6227804.3.1第一階段文本主題分析 6287744.3.2第二階段文本主題分析 758804.3.3第三階段文本主題分析 867214.3.4第四階段文本主題分析 9130814.3.5第五階段文本主題分析 9105931.4科普政策文本主題地域分析 10187634.4.1東部地區政策文本分析 11209204.4.2中部地區政策文本分析 12283184.4.3西部地區政策文本分析 131.1文本數據預處理政策文本是人們意志的自由表達,屬于非結構化的自然語言。現有的文本分析模型在對自然語言進行處理時,并不是直接進行處理的,我們需要通過對文本進行預處理,來將非結構化的自然語言轉化為計算機便于標識的結構化語言,這一部分直接決定了進行建模的數據,因此十分重要。預處理階段主要包括分詞、出停用詞。預處理相關過程如下:1.構建文本分詞詞典本文采用中文的分詞庫jieba來對科普政策文本進行分詞。同時為了提高分詞的效果,保證政策文本的專業性,我們選擇創建自定義詞典,將專業詞匯記入自定義詞典中,在對文本進行分詞操作前先加載自定義的詞典以補充jieba分詞庫在專業性上的不足,提高適應度。2.剔除停用詞除了分詞詞典外,停用詞庫的構建對于分詞效果的影響也非常大,使用了自定義分詞詞典后,結果可能依然不夠好,主要是由于存在一些頻數高的用以輔助成文的動詞、專有名詞,需要通過工具去除掉。目前并沒有科普政策特有的停用詞庫,我們選擇應用已有的熱門的通用停用詞庫包括哈工大停用詞、百度停用詞等,然而這些停用詞庫并不能適用于所有領域的分詞需求,比如在科普政策文本中,除了常見的停用詞以外還大量存在“制定”、“近期”、“表現”、“抓緊”、“總結”等政策文本特有的停用詞,在訓練過程中逐漸向停用詞典中添加新的需要過濾的詞匯,不斷調整停用詞詞庫。3.特征選擇及向量化由于選擇的文本均為科普政策相關的文本,再通過分詞和去除停用詞后,會有一些出現頻率很高但與主題分析無關的干擾性詞匯,例如科學、發展等,為了便于分析我們選擇將這類干擾詞匯去除。計算過濾后的數據TF-IDF值,將數據向量化處理,使用TF-IDF方法能突出重要特征詞,抑制次要特征詞。1.2科普政策文本主題分析將處理過的數據作為樣本放入LDA模型中進行訓練模擬得到相應的結果,在模型將詞進行歸類統計標記后,參照文獻等根據同話題組的詞的具體內容找到潛在話題。在訓練模型時用一致性和困惑度來對模型進行評估,其中一致性越大模型越好;困惑度越小模型越好。主題的個數越多,模型的困惑度就越低,但是注意一點,當主題數很多的時候,生成的模型往往會過擬合,所以不能單純依靠困惑度來判斷一個模型的好壞。因此我們同時考慮一致性和困惑度來確定主題的個數。圖4-1主題數與一致性圖4-2主題數與困惑度圖4-1和圖4-2為訓練LDA模型時得到的主題數與一致性和困惑度的折線圖。由圖可以看出隨著主題數的增加模型的困惑度在持續減小,因此在此次模型訓練中困惑度對與主題個數的確定沒有確定性的作用,結合一致性來看,我們不難發現,在主題數為2、3、5、8時模型的效果更好。考慮到主題數太少會出現欠擬合的情況且此時模型的困惑度太大,嘗試舍棄該結果,主要考慮主題數為5或者8。對比來看主題數為8時,其困惑度和一致性均表明此時模型更為合理,但5和8之間相差并不多,因此決定通過四象限圖來決定最終主題個數。由圖4-3、4-4可知,在主題個數為8時主題間出現的重合較多,因此最終確定比較合理的主題數為5,并進行分析。圖4-3主題數為8時的四象限圖圖4-4主題數為5時的四象限圖確定好最優主題個數之后,再通過python的genism庫進行主題建模,得到846份科普政策文本的“文本-主題”分布情況,如表4-1所示,出現概率最大的主題可以確定為文本的主題,從而我們可以獲得各個主題在各個文檔中的概率分布情況進而可以得到文本的主題歸屬情況。此外也得到了科普政策文本5個主題、主題對應關鍵詞及其分布概率,選取每個主題的前10個關鍵詞。每個主題所對應的關鍵詞及分布概率詳見表4-2。表4-1科普政策文本-主題分布Topic1Topic2Topic3Topic4Topic500.06097400.01959400.918932100.23296200.765173020.138651000.8603580300.47578400.4636690.059809400.9382430.059197008410.98561900008420.99306200008430.8784780.0263290.0220600.07220184400.900137000.09112184500.999012000表4-2科普政策文本主題以及Top10主題詞topic1topic2topic3topic4topic5項目0.009項目0.01宣傳0.007社區0.014教育0.006示范基地0.007培訓0.009科普活動0.006項目0.008項目0.005教育0.007宣傳0.008項目0.005資源0.005科普活動0.005社區0.006科普活動0.007教育0.005科普活動0.005防災0.004技術0.004教育0.005氣候0.005教育0.005傳播0.004農村0.004學會0.005社區0.004中醫藥0.005研究0.004科普活動0.004公眾0.004氣象0.004宣傳0.004宣傳0.004宣傳0.003經費0.004示范基地0.004示范基地0.004減災0.003傳播0.003研究0.004資源0.004技術0.004科技館0.003街道0.003青少年0.004培訓0.004健康0.004防震0.003本文通過閱讀已有政策文本的具體內容、已有的相關科普政策的研究成果,結合編程給出的每個文本的具體主題歸屬,并聯系每個主題下的關鍵詞,對每個主題進行總結劃分。首先,通過模型得到該主題下出現頻率最高的10關鍵詞分別為“項目”、“示范基地”、“教育”、“社區”、“技術”、“農村”、“科普活動”、“宣傳”、“傳播”和“街道”,然后根據這10個關鍵詞本身的語義、應用場景及其組合在科普領域的偏向,總結該隱含主題為:科普宣傳。以此類推,最終得到的5個主題名稱分別為科普政策和技術的宣傳普及、科普人才的教育培訓、氣象科普、醫療科普和應急科普。以所有科普政策文本作為一個整體分析得到的結果在一定程度上可以體現科普政策文本內容主要的關注重點。然而科學技術普及與自然科學和人類社會的發展都相關,科學技術的進步和社會的發展都會對科普產生影響,也就是說科普工作是動態的發展的那么對應的政策也一定會是不斷更新的,不同時期不同地區政府發布的科普政策會有所側重。不考慮時間因素將所有的文本進行整合分析得到的結果可以反映現有的科普政策體系整體現狀,但是可能會忽略某個時間段的科普政策的主題,比如科普場館、科普稅收政策、科普獎勵等方面,但并不代表所有的科普政策文本的內容都與其無關。因此對不同時間段不同區域的科普政策主題進行研究是十分有必要的。1.3科普政策文本主題演變分析隨著科學技術的發展,科普政策的主題在不同時期其側重的方面會有所差異。科普政策的差異也在一定程度上反映科普事業的發展,因此我們加入時間序列來對科普政策進行分析,探索科普政策不同時期的主題演變。以往的學者在對政策進行階段劃分市常以政策發展階段和世代作為劃分標準進行劃分。這兩種劃分方法均存在有一定的局限性。以發展階段為依據進行劃分時常常以重大歷史事件最為間斷點,但是不同人對于重大歷史事件的判斷不盡相同,具有較強的主觀性;以世代為劃分標準進行劃分時,學者又常以十年為一期,這可能會割裂一些政策主題的持續研究,且就科普政策而言,其發展的時間并不是特別長久,將其按期劃分極易因跨度過大導致特性不明顯。考慮到我國政策實踐的周期常以“五年計劃”相一致,且2002年之前發布的政策文本較少,本文將研究政策分為五個階段,第一個階段以1986年至2000年,之后從2001年至2020年以5年為一個周期來進行劃分,通過對五個階段的政策文本關鍵詞對我國科普政策文本主題的變化進行分析。4.3.1第一階段文本主題分析第一階段的文本包括從1986年到2000年的政策文本,將其作為實驗數據放入LDA模型后,綜合考慮一致性和困惑度對模型進行評估后,得出最合理的主題數是3,其主題及對應的top10的詞如表4-3所示,結合主題詞我們將這三個主題分別確定為科學技術知識普及宣傳、科普基礎設施建設和各個民族全面發展。結合我國的國情,該階段處于科普事業的起步階段且科學技術水平并不高,出臺的政策主題比較概括和泛化,政府的主要關注點在于科學知識的全面普及,以及一些基礎設施的建設。表4-3第一階段文本主題及主題詞分布topic1topic2topic3科學0.015教育0.01地區0.017教育0.01科學0.009少數民族0.009活動0.008宣傳0.007民族0.008宣傳0.007活動0.006科學0.008公眾0.005博物館0.005活動0.008經濟0.005圖書館0.005地質災害0.007文化0.004社會主義0.004宣傳0.006知識0.004中國科學院0.004教育0.006規劃0.004經濟0.004經濟0.006地區0.004設施0.004當地0.0044.3.2第二階段文本主題分析第二階段的文本包括從2001年到2005年的22個政策文本,將其作為實驗數據放入LDA模型后,得出最合理的主題數是5,其主題及對應的top10的詞如表4-4所示,5個主題可以確定為土地資源的開發、科普場館的建造、醫療科普、應急科普以及科普宣傳。通過觀察不同主題下對應的詞語我們不難發現科普政策中涉及到的方面更加廣泛了,出現了更多具體的方向領域,如應急、土地、消防、防震、環境等,同時管理、綱要、預案等詞也在政策文本中多次出現,說明隨著社會的發展該階段的科普事業推進更加有條理了,科普政策體系開始搭建并逐步細化,相較于上一階段有了較大的改善;另外,不同主題中均出現活動、科普活動、教育、宣傳,且其出現頻率偏高,說明該階段的科普政策注重科普宣傳,相比較之前的教育,該階段更傾向于通過活動來帶動大眾的積極性。科普政策的內容整體呈現以宣傳和場館建設為主,不同學科領域多樣化發展,其中以土地資源和應急科普為重點。表4-4第二階段文本主題及主題詞分布topic1topic2topic3topic4topic5活動0.016土地0.022宣傳0.026活動0.018活動0.019科普活動0.015設施0.012科學0.017應急0.016科普活動0.017土地0.01科技館0.012應急0.013宣傳0.012教育0.011科學0.009科普活動0.009環境0.01科學0.011青少年0.01農村0.009宣傳0.009活動0.01土地0.007科學0.009農民0.007項目0.008發展觀0.007科普活動0.006宣傳0.009宣傳0.006活動0.007農村0.006管理0.006消防0.007管理0.005科學0.007禽流感0.006公眾0.006防震0.005青少年0.004應急0.006國務院0.005預案0.006綱要0.005學做0.004管理0.006科普活動0.005負責0.006管理0.0054.3.3第三階段文本主題分析第三階段的文本包括從2006年到2010年的113份政策文本,將其作為實驗數據放入LDA模型后,得出最合理的主題數是3,其主題及對應的top10的詞如表4-5所示,3個主題可以確定為科普宣傳、示范基地的規范化、科普人員培訓教育。該階段多次出現示范基地可見我國的科普政策已初具成效,但是規范化不足,因此進行示范基地的確定,以此來進一步引領科普事業的發展,開始重視對科普行業從業者的教育問題。另外在這一階段科普活動的開展仍是政策的重點,相比較于之前的推廣這一階段更多的關注于如何開展。 表4-5第三階段文本主題及主題詞分布topic1Topic2Topic3活動0.024活動0.015科學0.011科學0.016科學0.011示范基地0.008教育0.011資源0.006項目0.007科普活動0.009科普活動0.006活動0.007項目0.009農村0.006教育0.006資源0.008示范基地0.005科普活動0.006青少年0.006教育0.005資源0.005宣傳0.005項目0.005宣傳0.005服務0.004市區0.004農村0.004示范基地0.004宣傳0.004示范縣0.0034.3.4第四階段文本主題分析第四階段的文本包括從2011年到2015年的204份政策文本,將其作為實驗數據放入LDA模型后,得出最合理的主題數是4,其主題及對應的top10的詞如表4-6所示,4個主題可以確定為科普創作、農業科普、科普場館以及科普宣傳。這一階段的政策中開始出現科普作品、文化等科普創作的相關詞匯,說明科普政策體系得到了進一步的完善,這與我國創建創新型國家的目標是相一致的;出現較多的關于農業養殖業相關的詞匯,如農業、技術、養殖等,可見農業和養殖業的發展并不足夠成熟,農民的科學素質有待提高;科普宣傳所占的比例并不特別大,一方面是之前的工作取得一定的成效,另一方面是科普政策涉及的專業領域增多,具體領域科普文件的增多會在一定程度上稀釋科普宣傳類文件所占的比例。該階段繼續關注科普宣傳和基礎設施建設的同時,開始較多關注科普創新活動和提高農民科學素質水平的活動。表4-6第四階段文本主題及主題詞分布topic1topic2topic3topic4中醫藥0.006示范基地0.006宣傳0.006示范基地0.009教育0.006街道0.005學會0.006教育0.007文化0.006技術0.005博物館0.005街道0.006科普活動0.005科普活動0.004教育0.004養殖0.005街道0.005教育0.004傳播0.004科普活動0.005宣傳0.004宣傳0.004研究0.004技術0.005技術0.004農業0.003示范基地0.004種植0.004傳播0.004養殖0.003技術0.004宣傳0.004國土資源0.003委員會0.003科普活動0.004農業0.004科普作品0.003管理0.003街道0.003科技館0.0044.3.5第五階段文本主題分析第五階段的文本包括從2016年到2020年的179份政策文本,將其作為實驗數據放入LDA模型后,得出最合理的主題數是6,其主題及對應的top10的詞如表4-7所示,6個主題可以概括為應急科普、醫療科普、氣象科普、科普創新、科普比賽和科普宣傳。該階段科普政策文本的主題較為多樣化,多為防震減災等應急科普內容,另外也存在健康、國土資源、氣象等領域。該階段首次大量出現經費,將科普創作、產業等的財務也納入科普體系以刺激其產生新的活力。另外還多次出現創新、比賽等,可見科普事業的推進與社會和科技的發展有著緊密的聯系,政府和有關部門開始順應現有的社會發展現狀嘗試新的科普宣傳方式并鼓勵創新。科普政策發展到該階段科普體系在一步步被完善,其涉及到的領域越來越廣。表4-7第五階段文本主題及主題詞分布topic1topic2topic3減災0.008講解0.007宣傳0.006宣傳0.007減災0.007服務0.006防震0.006防震0.007健康0.005服務0.006傳播0.006科普活動0.005教育0.006大賽0.006學會0.005質檢0.005選手0.005講解0.004管理0.005教育0.005選手0.004氣象0.004創新0.005創新0.004公眾0.004學會0.005經費0.004創新0.004氣象0.005管理0.004topic4topic5topic6服務0.008宣傳0.006氣象0.008經費0.006氣象0.005國土資源0.007創新0.006服務0.005制作0.006宣傳0.005制作0.005地質0.005研究0.005視頻0.005出版社0.005作品0.005創新0.005宣傳0.004傳播0.005公眾0.004服務0.004講解0.004學會0.004資源0.004科普活動0.004大賽0.004教育0.004評審0.004傳播0.004公眾0.0041.4科普政策文本主題地域分析我國地域遼闊省市眾多,為了便于管理,在政策上將我國劃分為東中西部三部分。我國科普文件中地方性的法規較多,文本量高達1978份,為了便于分析,我們分別選擇不同部分文本量較多的兩個省(市,自治區)的政策文本進行分析,期望可以在一定程度上消除特定地區的特異性探索其所在區域的特性。將不同地域城市發布的政策文本數進行匯總后得到表4-8,根據發文數量做出排序后,我們選擇江蘇和浙江來代表東部地區,內蒙古和江西來代表中部,重慶和陜西來代表西部。表4-8城市對應文本發布數量東部地區(份數)中部地區(份數)西部地區(份數)北京57山西17四川82天津29內蒙古122貴州34河北89吉林34云南18遼寧57黑龍江38西藏1上海123安徽69陜西91江蘇133江西188甘肅37浙江100河南54青海16福建105湖北82寧夏28山東78湖南86新疆19廣東87廣西121重慶92海南274.4.1東部地區政策文本分析以江蘇和浙江的科普政策文本作為樣本,結合模型的一致性、困惑度曲線以及氣泡圖進行分析后得到該樣本的文本主題數為4,其對應的主題詞的分布如表4-9所示。在四個主題中頻率最高的詞均為教育,其中科普活動、宣傳和防震減災出現的頻率也較大,可見,該地區對于科普教育、科普宣傳以及應急科普的關注度較高。這可能與其地理位置有關,我國東部大部分地區沿海,且受氣候影響易受洪澇和臺風等自然災害的侵襲,因此相關部門對應急科普的關注度較高。結合其他關鍵詞,可以將4個主題歸納細分為科普資源、健康科普、公眾科普以及科普設施。其中科普資源主要為科普經費,健康科普主要為中醫藥相關,公眾科普則為針對不同年齡段、不同地區公眾進行科普培訓以及文化傳播,科普設施則為科普場館、設施等的建設。表4-9東部地區政策文本主題及主題詞分布topic1topic2topic3topic4教育0.011教育0.011教育0.01教育0.015中醫藥0.008科普活動0.009科普活動0.008科普活動0.011科普活動0.007宣傳0.006宣傳0.008防震0.008宣傳0.007減災0.006公眾0.006宣傳0.008經費0.005文化0.005培訓0.005減災0.007蘇州市0.005中醫藥0.005環保0.005場館0.006小學0.005管理0.004創新0.004創新0.004巡講0.005能力0.004文化0.004資源0.004文化0.004農村0.004農村0.004經費0.004減災0.004公眾0.004健康0.004設施0.0044.4.2中部地區政策文本分析以內蒙古和江西兩省的科普政策文本作為樣本進行分析,其結果如圖4-10所示,根據文本內容將所有文本劃分為3類,得到3個主題,根據不同主題中主題詞的分布可以將其簡單概括為科普活動、公眾科普以及科普教育。由主題詞出現的頻率可知,以內蒙古和江西為代表的中部地區的科普政策主要聚焦于科普活動上,包括科普活動的舉辦和宣傳。相比較于東部地區科普活動的多樣化,中部地區則主要聚焦于科普競賽上,活動方式較為單一,不斷追求創新。另外,中部地區的科普宣傳將側重點放在了發展較為落后的農村。表4-10中部地區政策文本主題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論