論證候研究中變量聚類結果的詮釋_第1頁
論證候研究中變量聚類結果的詮釋_第2頁
論證候研究中變量聚類結果的詮釋_第3頁
論證候研究中變量聚類結果的詮釋_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、論證候研究中變量聚類結果的詮釋張連文1,周雪忠2,何麗云2,劉保延2 1香港科技大學計算機科學及工程學系,香港2中國中醫科學院,北京,100070Email:lzhangcse.ust.hk, HYPERLINK mailto:zxz zxz, heliyun, liuby摘要: 近年來有不少學者利用變量聚類方法研究西醫病種中中醫癥狀的分布規律,把所得的類詮釋為證候,從而得到一些關于證候分布的結論。 本文剖析變量聚類結果的統計學含義,并基于此討論把變量聚類結果詮釋為證候的合理性。引言變量聚類也稱指標聚類,其目標是要把相似的變量聚到同一類,不相似的變量聚到不同的類,從而揭示變量之間的關系。就具體

2、算法而言,證候研究中用得最多的是系統聚類,也稱歸并層次聚類。系統聚類首先計算變量兩兩之間的相似系數,把每一個變量看成一類,并以變量之間的相似系數作為類之間的相似系數;然后開始逐步將類進行合并,每次將相似系數最大的兩個類并成一個新類,并計算新類與其它類之間的相似系數,這樣每次減少一個類,直到所有變量都聚成一類為止 REF _Ref140460246 r h * MERGEFORMAT 1。系統聚類的過程可以表述為一張冰柱圖。最后在冰柱圖的適當位置截取,而得數個變量類。近年來有不少學者利用系統變量聚類方法對西醫病種中中醫癥狀的分布情況進行研究。例如,麻曉慧等 REF _Ref143999403 r

3、 h * MERGEFORMAT 2通過對739例膽病病案進行分析,得到9個類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內熱證和熱毒亡陽證。其它被研究的西醫病種有子宮肌瘤 REF _Ref144000081 r h * MERGEFORMAT 3、月經過多 REF _Ref144000099 r h * MERGEFORMAT 4、胃癌 REF _Ref144000116 r h * MERGEFORMAT 5、胸痹心痛 REF _Ref144000128 r h * MERGEFORMAT 6、冠心病 REF _Ref144000

4、141 r h * MERGEFORMAT 7等等。本文剖析系統變量聚類結果的統計學含義,并基于此討論把它們詮釋為證候的合理性。 我們的結論是,變量聚類的結果不能詮釋為證候。變量聚類結果的統計學含義在麻曉慧等 REF _Ref143999403 r h 2分析的膽病數據中,癥狀變量全部是二值的。 分析所得的變量類之一如下:類1:發熱寒戰、右上腹壓痛拒按、黃疸、右上腹疼痛、惡心嘔吐、大便秘結、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。本節以這個類為例,剖析系統變量聚類結果的含義。要準確把握這個類的含義,需要考慮三個因素,即變量與事件這兩個概念的區別、變量間相似系數的定義、以及變量類間相似系數的定義

5、。下面逐一討論這三個因素。變量與事件變量是刻畫事物某方面特征的指標,它的每一個取值對應一個事件。先拿概率論中常用的拋擲硬幣試驗為例來解釋這兩概念。拋擲硬幣試驗可以從多個方面來看:使用的硬幣是否質地均勻、拋擲方式如何、拋擲結果是什么、等等。拋擲結果這個指標刻畫試驗一個方面的特征,因此它是一個變量。這個變量有兩個可能的取值,即正面朝上和反面朝上。于是有兩個事件,即拋擲結果正面朝上和拋擲結果反面朝上。接下來看一個中醫的例子。有無口苦是反映病人身體一個方面特征的指標,因此它是一個變量,稱為癥狀變量。它有兩個可能的取值,即有和無。于是有兩個癥狀事件, 即(病人)有口苦和(病人)無口苦。如果要考慮不同輕重

6、程度,相應的變量是口苦程度。 一般情況下,程度變量有4個可能的取值,即無、輕、中和重。于是有4個癥狀事件,即無口苦、有輕度口苦、有中度口苦和有重度口苦。為了統一 二值和多值情況下癥狀變量的稱謂,可以用口苦情況 來替代有無口苦和口苦程度。有口苦這個詞通常被簡化為口苦。同時,口苦情況也被簡化為口苦。這樣,口苦時而指 口苦情況這個變量,時而又指有口苦這個事件。在下一節讀者將會看到,這種歧義性造成了對變量聚類結果之含義的誤解。 顧名思義,變量聚類的對象是變量而不是事件,其結果是變量的類而不是事件的類。所以,類1的成員是口苦情況等癥狀變量,而不是有口苦等癥狀事件。為了避免誤解,我們把類1的定義改寫如下:

7、類1:發熱寒戰情況、右上腹壓痛拒按情況、黃疸情況、右上腹疼痛情況、惡心嘔吐情況、大便秘結情況、小便色黃情況、苔黃情況、苔膩情況、脈滑情況、脈弦情況、口苦情況。變量類相似系數口苦情況等12個癥狀變量為什么會被聚成一類呢?它們被聚成一類這件事的含義是什么?一個粗略的回答是,這意味著口苦情況等12個癥狀變量之間的相似度高。如果要準確回答這個問題,則需要考慮如何基于變量之間的相似系數定義類之間的相似系數。常用的方法有最大相似系數法、最小相似系數法和平均相似系數法。在計算兩個類A和B間的相似系數時,考慮A中變量與B中變量間的相似系數。最大相似系數法取其最大者,最小相似系數法取其最小者,而平均相似系數法取

8、平均數。 REF _Ref140460246 r h * MERGEFORMAT 1 如果類1是用最大相似系數法獲得的,那么對類中任意一個變量V,類中有另外一個變量U使得V和U間的相似系數不低于某個閾值。如果類1是用最小相似系數法獲得的,那么類中任意兩個變量間的相似系數不低于某個閾值。如果類1是用平均相似系數法獲得的,那么類中變量間的相似系數的平均值不低于某個閾值。 REF _Ref140460246 r h * MERGEFORMAT 1 上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對變量類,而每對類之間都有一個相似系數。這些相似系數的最小者就是上面說的閾值。一般說,最大相似系

9、數法的閾值最大,平均相似系數法的閾值次之,最小相似系數法的閾值最小。變量相似系數變量間相似系數的高低的直觀含義是什么?這個問題的答案依賴所選用的相似系數是什么。相似系數有各種各樣的類型 REF _Ref140460246 r h * MERGEFORMAT 1 。 作為例子,這里只討論Jaccard相似度和相關系數。Jaccard相似度只適用于二值變量。下面用一個例子來說明它的定義和直觀含義。用d記脈弦和口苦同時出現的樣本數,b記脈弦出現而口苦不出現的樣本數,c記脈弦不出現而口苦出現的樣本數。脈弦情況和口苦情況這兩個變量的Jaccard相似度定義為。Jaccard相似度的取值在0-1之間,可以

10、視為是癥狀出現的同步率。它的值越高,脈弦和口苦出現時的同步率就越高,即脈弦和口苦的出現更接近如下情況:要么兩者都不出現,要么兩者都出現。相關系數是統計學中用來度量數字變量間關聯程度的一個指標。如果把癥狀的出現表示為1,不出現表示為0,那么就可以定義脈弦情況和口苦情況間的相關系數。相關系的取值在0-1之間。當兩個變量的可能取值相同時,它們之間的相關系數也可視為是一種同步率。脈弦情況和口苦情況間的相關系數越高,脈弦和口苦同時出現或同時不出現的次數也就越多, 反之亦然。類1的含義在分析數據時,麻曉慧等 REF _Ref143999403 r h * MERGEFORMAT 2用的是SAS軟件。由于他

11、們未提及軟件設置,所使用的變量相似系數應該是SAS默認的Jaccard相似度, 而所使用的變量類相似系數應該是SAS默認的平均相似系數。 所以,類1是一個由口苦情況等12個癥狀變量組成的集合,其含義是這12變量兩兩之間的Jaccard相似度平均不低于某個閾值, 即口苦等12個癥狀兩兩同步出現的頻率平均不低于某個閾值。證候的含義證候是一個具爭議性的概念。但是,在詮釋變量聚類結果時人們所使用的證候其意義基本是統一的、清楚的。例如,在把類1詮釋為肝膽濕熱證時,肝膽濕熱證對應由口苦等12個癥狀(事件)組成的癥狀群,其意義如下:如果這些癥狀全部(或其大多數)在某病人身上同時出現,那么該病人有肝膽濕熱證,

12、如果這些癥狀中許多不在一病人身上出現,那么該病人無肝膽濕熱證。變量聚類結果的詮釋現在我們以類1為例討論變量聚類的詮釋問題。 在 REF _Ref143999403 r h * MERGEFORMAT 2中,類1被詮釋為肝膽濕熱證。這是由于類1被認為是由有口苦等12個癥狀事件組成的集合,進而其意義被理解為口苦等12個癥狀同時出現。在把類1詮釋為肝膽濕熱之后, REF _Ref143999403 r h * MERGEFORMAT 2進一步得出結論:肝膽濕熱證是肝膽病中的中醫證候之一。這就是說,肝膽濕熱證存在于研究涉及的739個樣本中,即有一部份樣本同時包含口苦等12個癥狀或其大多數。為方便討論,

13、我們將這一段文字涉及的幾件事按邏輯順序整理如下:把類1認為是由有口苦等12個癥狀事件組成的集合。把類1的意義理解為口苦等12個癥狀同時出現,從而把它詮釋為肝膽濕熱證。在2的基礎上,得出肝膽病中有肝膽濕熱證的結論,即有一部份樣本同時包含口苦等12個癥狀或其大多數。根據第2節的結論,類1是癥狀變量的集合而不是癥狀事件的集合。所以,上述第1步是不正確的。再根據第2節的結論,類1的意義不是口苦等12個癥狀同時出現。實際上,句子“口苦等12個癥狀同時出現”本身是一個病句。顯然,口苦等12癥狀不可能在每一個樣本中都同時出現。那么它們究竟在哪些樣本中出現呢?句子沒有指明,因此意義不清。所以,第2步也是錯誤的

14、。最后,第3步從“口苦等12個癥狀同時出現”這個含義不清的命題推出“有一部份樣本同時包含口苦等12個癥狀或其大多數”。這是不合邏輯的。上述三步都有問題。那么有沒可能不通過它們,而直接從類1的含義出發得出“有一部份樣本同時包含口苦等12個癥狀或其大多數”這個結論呢?回答是否定的。類1的含義只是說口苦等12個癥狀兩兩以一定頻率在樣本中同時出現。這并不意味著所有12個癥狀同時出現在某些樣本中。在邏輯上,從兩兩雙邊關系是無法推出多邊關系的。打一個比方:青年A 與一對好朋友B和C談三角戀愛,A和B常常一起出現,A和C常常一起出現,B和C常常一起出現, 但這些并不意味著他們三人會同時出現。上面的討論以 R

15、EF _Ref143999403 r h * MERGEFORMAT 2為例。但是,所指出的問題是其它用變量聚類研究證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。 這些工作是要通過分析一組關于西醫某病種的樣本,揭示該病種中中醫證候的分布規律,這其實是揭示該組樣本中中醫證候的分布情況。簡而言之,這就是要揭示樣本某方面的特征和性質。變量聚類方法只考慮變量間的關系,完全不分析樣本的特征和性質。既然如此,它又怎么能揭示樣本中中醫證候的分布規律呢?結束語變量聚類所得到的不是癥狀事件的類,而是癥狀變量的類,其含義不是一些癥狀同時出現于一些病人,從而不能詮釋為證候。變量聚類不分析樣本的特征和性質,從而不可能揭示證候在樣本中的分布規律。致謝本項研究得到香港研究資助局項目622105、北京市科委重大計劃項目H020920010031和中國博士后科學基金2005037106的資助。參考文獻張堯庭,方開泰,多元統計引論,科學出版社,北京,1999。麻曉慧,王弘午,何裕民,膽病癥狀學聚類研究,中國中醫基礎醫學雜志,2000年第6卷第12期,59-61。李冬華,何裕民,子宮肌瘤患者的證候分布規律研究,上海中醫藥大學學報,第17卷第2期,30-33,2003。李秀昌,張紅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論