分子拓撲指數介紹課件_第1頁
分子拓撲指數介紹課件_第2頁
分子拓撲指數介紹課件_第3頁
分子拓撲指數介紹課件_第4頁
分子拓撲指數介紹課件_第5頁
已閱讀5頁,還剩68頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、許祿中國科學院長春應用化學研究所分子拓撲指數的介紹第1頁,共73頁。一. 圖論和化學圖圖論為數學中的一個分支,它與拓撲學和組合數學密切相關。圖論在化學中的應用可粗略地歸為兩類:(1)結構圖,即分子圖;(2)反應圖圖論 結構圖 反應圖點 原子 化學試樣線 化學鍵 化學反應路徑(path) 化學子結構 反應序列環圖 環狀化合物 度 原子價態 樹 非環結構 第2頁,共73頁。二. 拓撲指數的基本概念 1. 拓撲指數的定義 拓撲指數是一種數學的量,這種數學的量是圖的不變量,它不隨圖中點的編序的改變而改變。準確些,應該稱為圖 論指數,但習慣上常稱為拓撲指數。由分子圖所衍生的拓撲指數稱為分子拓撲指數。 2

2、. 對一個新拓撲指數的要求 (1)具有好的選擇性,即,由不同的結構所衍生的拓撲 指數是不一樣的; (2)具有高的相關性,即,將之用于化合物性質的預測,應能得到好的數學模型。第3頁,共73頁。3. 拓撲指數的優點和不足(1)優點 易于獲得 如:分子中碳原子的個數,N;分子中單原子的個數,B1;分子 中雙鍵的個數,B2;分子中環的個數,C; 通常能夠得到好的數學模型第4頁,共73頁。如:y: 正烷烴分子的沸點;x:分子中碳原子的數目第5頁,共73頁。(2)拓撲指數的不足 它主要表征的是“圖”,即,拓撲指數由圖所衍生,因而,有時物理意義欠明確。 但是,我們的目的是對未知化合物進行預測,而拓撲指數常能

3、得到好的結果,所以,迄今為止,在化合物結構性質/活性相關性(QSPR/QSAR)研究中,拓撲指數是應用最為廣泛的一類參數。第6頁,共73頁。三. 拓撲指數的計算步驟(1)分子的化學圖表示(2)從化學圖得到分子的矩陣表示(3)對矩陣實施數學運算第7頁,共73頁。例子:世界上第一個拓撲指數,Wiener指數,W(1947) 第8頁,共73頁。四. 幾個拓撲指數的介紹1. Randic 分子連接性指數(Connectivity index)(1)分子支化度指數 此化合物的C-C鍵為:(1,4), (1,4), (1,4), (4,2), (2,1)由此第9頁,共73頁。(2)ID指數 同時考慮通道數

4、和支化度兩個因素,以期更好地表征分子的特點。第10頁,共73頁。第11頁,共73頁。第12頁,共73頁。第13頁,共73頁。(3)分子連接性指數 由Kier和 Hall將支化度指數Con進行擴展,用希臘字母表示。在的計算中,將化合物的結構劈裂成如下結構: 在圖論中,稱:(a)通道(路徑)(2階);(b)簇(3階);(c)通道/簇(4階);(d)鏈(5階)。其分子連接性指數分別表示為: 2p, 3c , 4pc, 5ch第14頁,共73頁。分子連接性指數的通式:其中,m 為階; t 為p, c, pc, ch; v為分子中原子的價態第15頁,共73頁。不同雜化狀態的一些原子的值示于下表:第16頁

5、,共73頁。例1:第17頁,共73頁。例2:第18頁,共73頁。例3:第19頁,共73頁。2. 拓撲指數Am第20頁,共73頁。如2甲基戊烷第21頁,共73頁。 將A, B, C矩陣分別擴展兩列:列1:原子支化 度開平方;列2:原子的 van der Waals 半徑開平方第22頁,共73頁。令Z1 = G1xG1; Z2 = G2xG2; Z3 = G3xG3第23頁,共73頁。拓撲指數定義為:其中,max1, max2, max3分別為Z1, Z2, Z3最大本征值。對于上述化合物: max110.455, max214.5953 max314.8237第24頁,共73頁。第25頁,共73

6、頁。五. 應用舉例1. 化合物試樣集硝基苯類化合物第26頁,共73頁。 35 nitrobenzenes and their toxic activities第27頁,共73頁。2. 參數的計算 分子連接性指數mxt: 0 xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,6xch,3xc,4xc,5xc,6xc,4xpc, 5xpc,6xpc, 共計16個 Am指數:Am1, Am2, Am3, 共計3個 -Ehomo, -Elumo, 偶極矩, 分子生成熱Hform及離子化能 Eip, 共計5個 指示變量綜合如上4類, 本工作中對于每一化合物所計算的參數共計25個. 第28頁

7、,共73頁。3. 變量的選擇Leaps and Bounds 回歸分析結果No.VariablesRF1130.8912227,130.917239,12,130.925941,9,12,130.934851,5,9,12,130.944461,5,9,10,12,130.943671,2,5,7,9,10,130.953281,2,5,6,7,9,10,130.953091,2,3,5,6,7,9,10,130.9525第29頁,共73頁。 4. 結果及討論 (1) 回歸分析結果樣本容量為N;變量數為M, 經驗規則: N/M5. 因為N=35, 變量最多可選7個 -logLC50 = -0.

8、3017+0.1278*2xp- 0.04654*3xp+0.04619*3xc+0.04592*Am1 -0.2958*Ehomo+0.1164*Elumo+0.4237*I R=0.95, F=32, S=0.25, N=35 其中, R為相關系數, F為顯著性檢驗, S為標準偏差, N為該類化合物數目(樣本容量).第30頁,共73頁。(2)人工神經網絡法 算法:BFGS (Broyden-Fletcher-Goldfarb-Shanno)贗- Newton法 網絡結構:7:3:1 測試集:30 預測集:5 結果:R0.993;S=0.092;F=2188;N=35 第31頁,共73頁。六

9、. Methods for variable selection Classical methods a) Forward selection b) Backward elimination c) Stepwise regression Leaps-and-bounds regression Orthogonal descriptors Genetic algorithm第32頁,共73頁。 Since the three classical methods are known well and many papers on genetic algorithm have been publis

10、hed, thus, next I would want to only introduce the two methods as above mentioned: Leaps-and-bounds regression Orthogonal descriptors第33頁,共73頁。1. Leaps-and-bounds regression This method is based on the fundamental inequality,RSS (A) RSS (Ai) RSS: residual sum of squares; A: any set of independent va

11、riables; Ai: a subset of A. e.g.: set A1 contains 3 variables; RSS=596; set A2 contains 4 variables; RSS=605. Thus, all the subsets of A2 will be ignored, because of these subsets with RSS greater than that for A2, and also for A1.第34頁,共73頁。2. Orthogonal algorithm (cf. M. Randic, New J. Chem., 15(19

12、91)517) (Gram-Schmidt 正交法)若變量集X有N個變量按一定規則排序后為X1, X2, XN, 第一步, 取X1為第一個正交基1, 使X2, XN和X1正交. 以X2為例, 用X1作自變量, X2為因變量進行一元回歸, 得X21=X2 (實際值) X2(計算值), 和X2一樣由其它變量得到Xi1. 第二步, 取X21為正交基2, 使其它變量Xi1和2正交. 重復如上過程直到得到N個正交變量1, 2,N. 由于變量相互間彼此正交, 因而, 各變量作用可以單獨測試, 而不受其它變量的影響, 只要對正交變量1, 2,N和因變量Y進行一元回歸計算出回歸系數Ri, 即可以計算出它們之間

13、相互組合后的回歸系數R, 公式如下: 式中Ri 為正交化的變量i與性質間的相關系數。即,首先將原變量正交化,并按與性質相關系數大小排序,然后,很易于進行最優變量子集的組合。第35頁,共73頁。We have data x1, x2, x3 and x4 (the raw data are not given here in detail). The following are the results of regressions. On the up half, the regressions are performed with x1, x2, x3 and x4. On the down

14、half, the regressions are performed with the orthogonal variables 1 , 2, 3, 4.-Coefficients of regression equations- x1 x2 x3 x4 constant 17.9661 40.4349 6.2334 -3.4705 6.4615 28.6314 3.0516 1.8745 -85.3786 22.0204 0.9347 1.0786 -0.5609 -57.1671 1 2 3 4 constant 17.9661 40.4349 17.9661 -3.4705 40.43

15、49 17.9661 -3.4705 1.8745 40.4349 17.9661 -3.4705 1.8745 -0.5609 40.4349- -第36頁,共73頁。 Once the descriptors are orthogonalized (as m ) variable selection will be very simple, because we have the following form: Therefore, it is easy to select variables (m ) based on the ordered m . (cf. B. Lucic et a

16、l., J. Chem. Inf. Comput. Sci., 39(1999)610)第37頁,共73頁。3. 比較實例 (1) 化合物試樣集硝基苯類化合物第38頁,共73頁。 35 nitrobenzenes and their toxic activities第39頁,共73頁。(2) Calculation of descriptors. Machine: Workstation Indigo2. Software: MOPAC : SYBYL version 6.1 Multiple statistical programs Quantum-chemical parameters:

17、7; Molecular connectivity indices mxt: 11; Topological indices Ami: 3 Indicative variable I: 1 Total: 22 Order (122): I, Hform, Ete, Eip, Er, -Ehomo, , - Elumo, 0 xp, 1xp, 2xp, 3xp, 4xp, 5xp, 6xp, 3xch, 5xc, 6xc, 4xpc, Am1, Am2, Am3.第40頁,共73頁。(3) Results and Discussion For saving space, we only give

18、 out 36 variable conmbinations. Results of variable selections_No.of vari. Method Variable R RMS _ 3 Forward selection 1, 2, 8 0.9098 0.316 Backward elimination 1, 10, 12 0.8895 0.348 Stepwise regression 1, 2, 8 0.9098 0.316 Genetic algorithm 1, 6, 21 0.9150 0.307 Leaps-and-bonds 1, 6, 21 0.9150 0.3

19、07 Orthogonal descriptor 1, 2, 20 0.9258 0.288 4 Forward selection 1,2,6,8 0.9126 0.312 Backward elimination 1,10,11,12 0.9164 0.305 Stepwise regression 1,2,6,21 0.9156 0.306 Genetic algorithm 1,10,11,17 0.9175 0.303 Leaps-and-bonds 1,10,11,17 0.9175 0.303 Orthogonal descriptor 1,2,20,13 0.9367 0.26

20、7 _第41頁,共73頁。 (Continued )_5 Forward selection 1,2,6,8,21 0.9156 0.301 Backward elimination 1,10,11,12,16 0.9188 0.301 Stepwise regression1) Genetic algorithm 1,5,12,17,19 0.9213 0.296 Leaps-and-bonds 1,5,12,17,19 0.9213 0.296 Orthogonal descriptor 1,2,20,13,8 0.9422 0.255 6 Forward selection 1,2,6,

21、7 8,21 0.9172 0.301 Backward elimination 1,10,11,12,16,20 0.9219 0.295 Stepwise regression 1,2,6,7,8,21 0.9172 0.301 Genetic algorithm 1,9,10,11,16,17 0.9279 0.284 Leaps-and-bonds 1,9,10,11,16,17 0.9279 0.284 Orthogonal descriptor 1,2,20,13,8,3 0.9470 0.245_第42頁,共73頁。 From above, we can see that: (1

22、) The results obtained by using three classical methods are very close; (2) Genetic algorithm achieves the same best combinations as leaps and bounds regression; (3) The best results obtained by using orthogonal descriptors. Next I would want to discuss these three points slightly in detail.第43頁,共73

23、頁。Result 1: _ The best one : orthogonal method Why ? The possible reason : the information contained in some descriptors is “condensed”._ Regression of molar refraction(MR) in heptanes against molecular connectivity indices mx. (cf.M.Randic, New J. Chem.,15(1991)517) 1x: R = 0.0241; 1: R = 0.0241; 2

24、x: R = 0.1635; 2: R = 0.9640; 1x + 2x: R = 0.9646; 1 + 2: R = 0.9646. “ purified 2x, 2, , is not duplicate by 1x.” M. Randic The information contained in 2x was “condensed”.第44頁,共73頁。 Number of variables Method of ordering R RMS_ 3 Based on Ri 0.9278 0.284 Forward selection 0.9256 0.288 Backward eli

25、mination 0.8896 0.348 4 Based on Ri 0.9373 0.265 Forward selection 0.9366 0.267 Backward elimination 0.9164 0.305 5 Based on Ri 0.9456 0.248 Forward selection 0.9420 0.256 Backward elimination 0.9301 0.280 6 Based on Ri 0.9538 0.230 Forward selection 0.9469 0.245 Backward elimination 0.9413 0.257 Bu

26、t orthogonal method is strongly based on the descriptor ordering for orthogonalisation.第45頁,共73頁。Result 2_ Genetic algorithm achieved the same combinations as the leaps-and-bounds regression. _ Genetic algorithm is as an optimization procedure to search a large space and to cope with local minima. B

27、ut this method is time consuming. Leaps-and-bounds has been used successfully for variable selection. Thus, genetic algorithm is an accepted procedure for variable selection. 第46頁,共73頁。Result 3_ The best subsets of descriptors obtained using three classical methods are not so good as the other metho

28、ds._ Forward selection(FS): once a variable has been entered into the model, it may not be removed. Backward elimination: once a variable has been deleted, it cannot be included again. Stepwise procedure is essential the FS, though the selected variable may be removed again. These may cause the resu

29、lts to close the sub-optimal solutions.第47頁,共73頁。 In addition, it should be pointed out that orthogonal method also depends on the structure of data set, i.e., the best results cannot be always obtained by using orthogonal descriptors.第48頁,共73頁。七. 幾個問題的討論 1. 關于相關性 對一個新拓撲指數的要求有兩點: (1)和化合物具有好的相關性 (2)對

30、于化合物具有好的選擇性 好的相關性不一定具有好的選擇性,如W指數,它和化合物性質的相關性通常較好,但選擇性較差;好的選擇性和化合物的性質不一定好的相關性,如化合物在CAS的登錄號,其選擇性(唯一性)非常好,但和化合物的性質不具有任何的相關性。 同時做到這兩點是比較困難的。第49頁,共73頁。 目前的拓撲指數,以“無以數計”來說都不過分,但是,在構效關系研究中,應用最廣泛仍為分子連接性指數。此指數有如下特點: (1)根據需要,可以計算出不同“階”和子圖類型的一系 列參數,這為構造預測數學模型提供了良好的基礎 t: (2)它易于被“改造”。在算法中,其關鍵環節是的取 值,改變的賦值方案,即可得到一

31、套新的參數。 (3)選擇性尚好第50頁,共73頁。 2. 關于選擇性 早年的時候人們作的比較多,其目的主要是試圖證明世界上所有的化合物是否可用一個數學的量來表征。 一般的做法是用飽和的鏈烷烴來進行驗證,因為鏈烷烴的異構體易于窮舉。后來,人們發現提出高選擇性拓撲指數是一非常困難的事情,于是,其注意力主要放到了相關性方面。然而,近年來,我們卻取得了突破性進展。第51頁,共73頁。 目前世界上最好的拓撲指數BID (Balaban完成)可以唯 一地表征到含20個碳原子的鏈烷烴,其異構體為366319個 BID的不足: 對含環體系適應能力較差 不能用于含雜原子體系 我們的拓撲指數EAID 可以唯一地表

32、征含1-22個碳原子 的全部380多萬個異構體(含23個碳以上的鏈烷烴尚未驗) 我們窮舉生成了一系列含8個原子的化合物共計40多萬個 異構體,這些結構含環且高度相似,但EAID均能很好區分 而不出現簡并。 進行高選擇性拓撲指數研究的基礎要有一個高效的“結 構生成器”;結構產生器是結構解析專家系統的核心。 第52頁,共73頁。 結構解析專家系統 實驗數據結構片斷集結構生成器結構驗證結構輸出約束 關鍵環節 結構生成器 在結構片斷 集基 的礎上 進行整體結 (候選化合 物)對接 第53頁,共73頁。 對生成器的要求是: (1)窮舉性 如,含有20個碳原子的飽和鏈烷烴的異構體為 366319。這些異構體在生成中不能少一個。 (2)無冗余性 就是說,對于上述分子,它僅可生成366319個,不 能 多出一個 (3)高效性 非常重要: (i) 對于同一分子,異構體數目非常龐大;(ii) 無效組合數量龐大, 如由2個CH3-, 18個-CH2-對接生成直 鏈二十烷烴, 由此可產生218!個無效組合。一般的機 器,由安裝到報廢也無法完成這樣的計算。第54頁,共73頁。要說明一個結構產生器的窮舉性和非冗余性有兩種方法: 從數學上嚴格對其算法加以證明, 如著名的 DENDRAL系統就是如此 把一些分子式提交給結構產生器進行窮舉生 成, 然后把其生成結果與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論