




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、平均信息熵及其應用 丁 勇 南京醫科大學數學教研室 信息能否度量 ?物質、能量和信息是構成客觀世界的三大要素。物質、能量和信息是構成客觀世界的三大要素。信息(信息(informationinformation)是什么)是什么? ?至今信息還沒有一個公認的定義至今信息還沒有一個公認的定義一般定義:常常把消息中有意義的內容稱為信息。一般定義:常常把消息中有意義的內容稱為信息。認識問題的過程:認識問題的過程: 當我們對一問題毫無了解時,對它的當我們對一問題毫無了解時,對它的認識是不確定的,在對問題的了解過程中,認識是不確定的,在對問題的了解過程中,通過各種途徑獲得信息,逐漸消除了不確通過各種途徑獲得
2、信息,逐漸消除了不確定性,獲得的信息越多,消除的不確定性定性,獲得的信息越多,消除的不確定性也越多。我們可以用也越多。我們可以用消除不確定性的多少消除不確定性的多少來度量信息量的大小。來度量信息量的大小。例:會堂有20排、每排20個座位。找一個人。甲告訴消息:此人在第10排;乙告訴消息:此人在第10排、第10座。是否存在信息量的度量公式是否存在信息量的度量公式 ?1948年,美國數學家、信息論的年,美國數學家、信息論的創始人創始人Shannon在題為在題為“通訊的通訊的數學理論數學理論”的論文中指出:的論文中指出:“信信息是用來消除隨機不定性的東息是用來消除隨機不定性的東西西”。并。并應用應用
3、概率論知識和邏輯概率論知識和邏輯方法方法推導出了信息量的計算公式推導出了信息量的計算公式 Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called the father of information theory. 公理公理1:信息量是事件發生概率的連續函數;:信息量是事件發生概率的連續函數;公理公理2:信息量是有限值;:信息量是有限值;公理公理3:如果事件:如果事件A和事件和事件B的發生是相互獨立的,則的發生是相互獨立的,則獲知事件獲知事件A和事件和事件B將同時發生的信息量是單獨獲知兩將同時發生的信息
4、量是單獨獲知兩事件發生的信息量之和。事件發生的信息量之和。設事件發生的概率為P,則滿足上述公理的信息量函數為pIpcIalnlog 為應用方便,可取c=1,a=e,單位為奈特(nat)信息量函數信息量函數 I= -lnp 如何體現不確定性的消除?如何體現不確定性的消除?pMNAAMNMNAAMNAMNpNMAPlnlnlnlnln,)( 定性為發生后,共消除的不確從而獲知事件所包含的不確定性為事件看成總的不確定性,將聯系起來又能和事件發生的概率響數值大小的單調性,將變量取對數后,不影定性為發生后,共消除的不確從而獲知事件所包含的不確定性為事件看成總的不確定性,將所包含的基本事件數為事件為基本事
5、件總數,其中設例:會堂有20排、每排20個座位。找一個人。甲告訴消息(A):此人在第10排;乙告訴消息(B):此人在第10排、第10座。991.54001ln,20201)(996.2201ln,201)(991.5400lnlnIBPIAPN 總不確定性由信息量公式 I= -lnp 可知 I 是 p 的單調下降函數信息熵(entropy )的概念 設離散型隨機變量X的概率分布為 X的信息熵定義為“加權平均信息量” 111211211,10)(niiinnnnppppppxxxxxpX 111lnlnniiiniippHpI 信息熵的直觀意義 變量的不確定性越大,熵也就越大,把它搞清楚變量的不
6、確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。所需要的信息量也就越大。 一個系統越是有序,信息熵就越低;反之,一個一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。所以,信息熵也可以系統越是混亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的一個度量。說是系統有序化程度的一個度量。X 甲贏 乙贏P 0.9 0.1H 0.325X 甲贏 乙贏P 0.5 0.5H 0.693熵的性質 連續非負性 對稱性 擴展性 可加性 極值性:nHpppnnln,21 熵取得最大值同時,即事件發生的可能性相時當 1948年,Shannon提出了熵的概念,并以此作為信息的度量,
7、宣告了信息論作為一門科學學科的誕生。 近年來,隨著計算機應用的發展和信息時代的來臨,信息論理論和應用的研究更顯示出其重要意義。應用1:識別假幣有有12枚外形相同的硬幣,其枚外形相同的硬幣,其中一枚是假幣(重量略有不中一枚是假幣(重量略有不同),如何用沒有砝碼的天同),如何用沒有砝碼的天平用最少次數找出假幣?平用最少次數找出假幣?每個硬幣可能是真,也可能是假,每個硬幣可能是真,也可能是假,且假幣可能重一些,也可能輕一些,且假幣可能重一些,也可能輕一些,故共有故共有24種可能,不確定性為種可能,不確定性為ln24。)1 ,0,0()0,0,1()1 ,0,0()0,0,1( 將硬幣分成將硬幣分成3
8、份,其中份,其中2部分在部分在天平的兩邊。實驗結果有天平的兩邊。實驗結果有3種可種可能性:假幣在天平左邊、右邊、能性:假幣在天平左邊、右邊、不在天平上。不在天平上。當當3種可能性概率相同時,種可能性概率相同時,熵最大,因此每次實驗提供熵最大,因此每次實驗提供的最大信息熵為的最大信息熵為ln3。設至。設至少秤少秤k次,次, k次實驗提供的次實驗提供的信息熵最多為信息熵最多為kln3,有有ln24=kln3可得可得k至少為至少為3。應用應用2:熵與參數估計的似然函數:熵與參數估計的似然函數熵估計最大似然估計即為最小率,較大時,頻率近似為概當取對數似然函數為個,有設相同的寫在一起為來自總體的樣本,將
9、、的分布律為設miiiiimiiimiiikmkkniimiiniippnLpnknpnknpkLpppxXPLnkkkkxxxxmipxXPXm1112112121)ln(ln)ln(lnln)(,2, 1)()(21 應用應用3:群體遺傳學:群體遺傳學?pAbabbaAbabbaaaaAAaAAaA大基因型分布的熵何時最的情況下設為的概率確定問在基因的概率為則基因設基因型概率分布為記兩個等位基因為 ,)(2221221122;,AaAa 22)1 ()1 ()1 (ppppppaaaAAaAA為基因型最大熵概率分布)1(2,:),(,2)1ln()1(2ln22ln2ln),(:2ppbp
10、abafpbabababbbbaabaf解得最大值求函數條件下即在基因型分布的熵為解babbaaaaAAaAA122 基因型概率分布為由此可見,無論第一代基因型概率分布為何值,第二代基因型熵即達到最大)1 (),1 (),1 (,(),(122ppppppaaaAAaAAppaA 的概率為則第二代基因型因概率分布為另一方面,設第一代基 多對等位基因多對等位基因也有相同的結論也有相同的結論AaBbAaBbHardyWeinberg 平衡(HW平衡)定律 一個隨機交配的群體中,等位基因頻率保持不變,基因型頻率至多經過一個世代也將保持不變。問題的提出 在信息論中,如何評價信源提供信息量的多少,是一個
11、值得探討的問題。 現在用的是相對率的概念,是以信息熵與最大信息熵之比 作為依據的。 問題:該值多大才算提供較多的信息量? nXHnln/ )(問題的設想 提出平均信息熵作為評價依據。 在信息論中也是如此,當信源提供的信息量達到或超過平均信息熵時,可認為已提供了較多的信息。 以學習成績比較為例,眾所周知,成績好壞,除了與最高分比較,更多的是與平均成績比較,當某個學生的成績超過平均成績時,說明該生的成績較好,否則說明應該發奮努力了。問題的解決 提出了平均信息熵的概念 推導了計算公式、性質 給出了應用:作為信源提供信息量多少的評價依據。 平均值概念的推廣平均值概念的推廣nVnnVnnGGGbabab
12、adxdxdxdxdxdxxxxfyVxxxxxxfydxdxdxdxxxfdxdxxxfGyGxxxxfydxdxxfdxxfabybaxxfy212121212121212121212121),(),(),(),(),(1),(),(/)()(1,)( 一般情況的面積二元函數一元函數平均信息熵的定義1, 0| ),(),(110ln)(12121212111111211 niiinnVnnnVnniiiniiinnpppppVdpdpdpdpdpdppppHHpppppppH定義平均信息熵為,已知信息熵!11, 0| ),(21121ndtdtdttttttnniiin 010110111
13、121221211121212111122111211!1/1)!1(1)ln(),(1)!1(1)1ln()1 ()ln(nininVnniiiVnVnnnVnninniiniiniiininndpdpdpdpdpdpppdpdpdpdpdpdppppHHindtdtdtttdtdtdttt 平均信息熵公式niniH21n23456789100.50.83 1.08 1.28 1.45 1.59 1.72 1.83 1.93nH平均信息熵的性質 平均信息量至少 占最大值72%的單調遞增函數是的單調遞增函數是nninHniHninninln1ln122平均信息熵的性質0lim,ln11nnnn
14、irrCni 歐拉公式:1ln13121nrCnn 可知由C為歐拉常數,近似值約為歐拉常數,近似值約0.5772,已計算到了,已計算到了108,000,000位,目前還不知道它是有理數還是無理數位,目前還不知道它是有理數還是無理數。平均信息熵的性質niniinininiiiCiiindtdtdttt22122111) 1(1)!1(1)ln( 可得由平均信息熵的性質 隨機變量X的函數f(X)的平均信息熵: 當f為單調函數時, )()(XHXfH)()(XHXfH平均信息熵的性質 等值面 nininiiniiiHpppp1111)1ln()1 (ln等值面位于如下的多面體中: 11 ; , ,
15、2 , 1 ,0| ),(1*21niiinppnipppppB1ln) 1()1ln()1 (lnnHnppppp其中p*為下式的解 平均信息熵的性質 ln, 1; 1, 2, 1, 0| ),(11111121nniiiniiinHxxxnixxxx 等值面外的點組成一個凸集 ),(212ppH65),(212ppH應用1:食物營養價值的評價 食物中蛋白質的氨基酸種類多、組成復雜,營養豐富,對機體的生長發育有利,我們可根據蛋白質的氨基酸組成比率計算信息熵,并與平均信息熵比較,作為評價營養價值的一個依據 稻米中8種氨基酸營養當量X分布表 蘇氨酸 0.049 纈氨酸 0.120 蛋氨酸 0.1
16、13異亮氨酸 0.113 亮氨酸 0.115 苯丙氨酸 0.134賴氨酸 0.08 色氨酸 0.231 稻米中 大部分氨基酸可在人體內合成,但這8種氨基酸需從食物中攝取,可知稻米的營養價值是非常豐富的 。72.1)(03.2)(88XHXH王德仁,等施氮對稻米蛋白質、氨基酸含量的影響J植物營養與肥料學報2001,7(3):353-6 應用:基因信息熵 根據四個堿基出現的概率,7個物種細胞色素C基因的信息熵如下表,由表可知,無論是高等生物還是低等生物,其信息熵都遠大于平均信息熵Human 1.9966 Chicken 1.9886Yeast 1.9817 Rat 1.9699Mouse 1.9599 Bovine 1.9582D.melangaster 1.9529 5629. 14HLIMBACH,K.J. & WU, R. Isolation and characterization of two alleles of the chicken cytochrome c gene J. Nucl. Acid Res. 1983(11):8931-8941NISHIKIMI,M.,SUZUKI,H.,SHGOOHTA,Y.,SAKURAI,T.,SHMOONNURA,Y.,TANAKA,M. et al. Isolation of a cDNA clonefor human
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 礦山安全標志牌設計制作及銷售合同
- 車輛保養與道路救援服務合作協議
- 離婚時遺產繼承與財產分割協議書
- 茶葉拍賣會組織與委托合同
- 旅游地產租賃合同范本:含旅游服務配套
- 互聯網公司財務總監任職及股權激勵合同
- 幼兒園班本生態課程培訓
- 《認識0~9》表格式教案2024-2025學年一年級上冊數學西師大版
- 2023安全生產月演講稿大全模板
- 紅色卡通潰瘍性結腸炎
- 礦井調度員考試題及答案
- 美國《GENIUS法案》:合規穩定幣的監管框架
- 2025至2030中國控制按鈕開關行業產業運行態勢及投資規劃深度研究報告
- 臨商銀行股份有限公司招聘筆試真題2024
- 2025廣東高考物理試題(大題部分)+評析
- DB31-T 1593-2025 基于自動駕駛功能的公交運營技術要求
- 醫院純水系統管理制度
- 2025年中考英語考前沖刺押題模擬試卷 3套(含答案)
- 鄉村基層工作筆試題目及答案
- CJ/T 258-2014纖維增強無規共聚聚丙烯復合管
- 2025年小升初語文復習:積累運用 專項匯編(含答案)
評論
0/150
提交評論