分子拓撲指數(shù)介紹_第1頁
分子拓撲指數(shù)介紹_第2頁
分子拓撲指數(shù)介紹_第3頁
分子拓撲指數(shù)介紹_第4頁
分子拓撲指數(shù)介紹_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、許祿許祿中國科學院長春應用化學研究所中國科學院長春應用化學研究所分子拓撲指數(shù)的介紹分子拓撲指數(shù)的介紹一一. 圖論和化學圖圖論和化學圖圖論為數(shù)學中的一個分支,它與拓撲學和組合數(shù)學密圖論為數(shù)學中的一個分支,它與拓撲學和組合數(shù)學密切相關。圖論在化學中的應用可粗略地歸為兩類:切相關。圖論在化學中的應用可粗略地歸為兩類:(1)結構圖,即分子圖;(結構圖,即分子圖;(2)反應圖)反應圖圖論圖論 結構圖結構圖 反應圖反應圖點點 原子原子 化學試樣化學試樣線線 化學鍵化學鍵 化學反應化學反應路徑路徑(path) 化學子結構化學子結構 反應序列反應序列環(huán)圖環(huán)圖 環(huán)狀化合物環(huán)狀化合物 度度 原子價態(tài)原子價態(tài) 樹樹

2、 非環(huán)結構非環(huán)結構 二二. 拓撲指數(shù)的基本概念拓撲指數(shù)的基本概念 1. 拓撲指數(shù)的定義拓撲指數(shù)的定義 拓撲指數(shù)是一種數(shù)學的量,這種數(shù)學的量是圖的不變量,拓撲指數(shù)是一種數(shù)學的量,這種數(shù)學的量是圖的不變量,它不隨圖中點的編序的改變而改變。準確些,應該稱為圖它不隨圖中點的編序的改變而改變。準確些,應該稱為圖 論論指數(shù),但習慣上常稱為拓撲指數(shù)。由分子圖所衍生的拓撲指指數(shù),但習慣上常稱為拓撲指數(shù)。由分子圖所衍生的拓撲指數(shù)稱為分子拓撲指數(shù)。數(shù)稱為分子拓撲指數(shù)。 2. 對一個新拓撲指數(shù)的要求對一個新拓撲指數(shù)的要求 (1)具有好的選擇性,即,由不同的結構所衍生的拓撲)具有好的選擇性,即,由不同的結構所衍生的拓

3、撲 指數(shù)是不一樣的;指數(shù)是不一樣的; (2)具有高的相關性,即,將之用于化合物性質的預測,)具有高的相關性,即,將之用于化合物性質的預測,應能得到好的數(shù)學模型。應能得到好的數(shù)學模型。3. 拓撲指數(shù)的優(yōu)點和不足拓撲指數(shù)的優(yōu)點和不足(1)優(yōu)點)優(yōu)點 易于獲得易于獲得 如:分子中碳原子的個數(shù),如:分子中碳原子的個數(shù),N;分子中單原子的個數(shù),;分子中單原子的個數(shù),B1;分子分子 中雙鍵的個數(shù),中雙鍵的個數(shù),B2;分子中環(huán)的個數(shù),;分子中環(huán)的個數(shù),C; 通常能夠得到好的數(shù)學模型通常能夠得到好的數(shù)學模型如:如:y: 正烷烴分子的沸點;正烷烴分子的沸點;x:分子中碳原子的數(shù)目:分子中碳原子的數(shù)目(2)拓撲指

4、數(shù)的不足)拓撲指數(shù)的不足 它主要表征的是它主要表征的是“圖圖”,即,拓撲指數(shù)由圖所衍生,即,拓撲指數(shù)由圖所衍生,因而,有時物理意義欠明確。因而,有時物理意義欠明確。 但是,我們的目的是對未知化合物進行預測,而拓但是,我們的目的是對未知化合物進行預測,而拓撲指數(shù)常能得到好的結果,所以,迄今為止,在化合撲指數(shù)常能得到好的結果,所以,迄今為止,在化合物結構性質物結構性質/活性相關性(活性相關性(QSPR/QSAR)研究中,拓研究中,拓撲指數(shù)是應用最為廣泛的一類參數(shù)。撲指數(shù)是應用最為廣泛的一類參數(shù)。三三. 拓撲指數(shù)的計算步驟拓撲指數(shù)的計算步驟(1)分子的化學圖表示)分子的化學圖表示(2)從化學圖得到分

5、子的矩陣表示)從化學圖得到分子的矩陣表示(3)對矩陣實施數(shù)學運算)對矩陣實施數(shù)學運算例子:世界上第一個拓撲指數(shù),例子:世界上第一個拓撲指數(shù),Wiener指數(shù),指數(shù),W(1947) 四四. 幾個拓撲指數(shù)的介紹幾個拓撲指數(shù)的介紹1. Randic 分子連接性指數(shù)分子連接性指數(shù)(Connectivity index)(1)分子支化度指數(shù))分子支化度指數(shù) 2/1)/(1jiijcCon鍵鍵此化合物的此化合物的C-C鍵為:鍵為:(1,4), (1,4), (1,4), (4,2), (2,1)由此由此56072121241411411411.xxxxxCon(2)ID指數(shù)指數(shù) 同時考慮通道數(shù)和支化度兩個

6、因素,以期更同時考慮通道數(shù)和支化度兩個因素,以期更好地表征分子的特點。好地表征分子的特點。(3)分子連接性指數(shù))分子連接性指數(shù) 由由Kier和和 Hall將支化度指數(shù)將支化度指數(shù)Con進行擴展,用希進行擴展,用希臘字母臘字母 表示。在表示。在 的計算中,將化合物的結構劈裂的計算中,將化合物的結構劈裂成如下結構:成如下結構: 在圖論中,稱:在圖論中,稱:(a)通道(路徑)()通道(路徑)(2階);(階);(b)簇(簇(3階);(階);(c)通道)通道/簇(簇(4階);(階);(d)鏈()鏈(5階)。階)。其分子連接性指數(shù)分別表示為:其分子連接性指數(shù)分別表示為: 2 p, 3 c , 4 pc,

7、5 ch分子連接性指數(shù)的通式分子連接性指數(shù)的通式:2/1.)/(1jivtm其中,其中,m 為階;為階; t 為為p, c, pc, ch; v為分子中原子的價態(tài)為分子中原子的價態(tài)不同雜化狀態(tài)的一些原子的不同雜化狀態(tài)的一些原子的 值示于下表:值示于下表:例例1:例例2:例例3:2. 拓撲指數(shù)拓撲指數(shù)Am如如2甲基戊烷甲基戊烷 將將A, B, C矩陣分矩陣分別擴展兩列:別擴展兩列:列列1:原子支化:原子支化 度開平方;度開平方;列列2:原子的:原子的 van der Waals 半徑開平方半徑開平方令令Z1 = G1xG1; Z2 = G2xG2; Z3 = G3xG3拓撲指數(shù)定義為:拓撲指數(shù)定

8、義為:其中,其中, max1, max2, max3分別為分別為Z1, Z2, Z3最大本征最大本征值。對于上述化合物:值。對于上述化合物: max110.455, max214.5953 max314.8237NO2R3R2R1R4R5五五. 應用舉例應用舉例1. 化合物試樣集化合物試樣集硝基苯類化合物硝基苯類化合物 35 nitrobenzenes and their toxic activitiesNo. R1 R2 R3 R4 R5 -log(LC50) (obs) 1 Me H H H H 3.57 2 H Me H H H 3.63 3 H H Me H H 3.76 4 NO2

9、H H H H 5.45 5 H NO2 H H H 4.38 6 H H NO2 H H 5.22 7 NO2 Me H H H 5.01 8 Me H H NO2 H 3.75 9 Me H NO2 H H 5.15 10 Me NO2 H H H 3.99 11 NO2 H Me H H 5.08 12 H Me H NO2 H 3.91 13 H NO2 H NO2 H 5.29 14 H H H H H 3.02 15 NH2 H H H H 3.70 16 NH2 H H NO2 H 4.07 17 H H OH H H 3.36 18 H H F H H 3.70 19 Me N

10、O2 H NO2 H 4.88 20 NO2 Me NO2 H H 6.37 21 Me NH2 H H H 3.48 22 H Me NH2 H H 3.24 23 H NH2 Me H H 3.35 24 NH2 Me H H H 3.80 25 NH2 H Me H H 3.80 26 NH2 H H Me H 3.79 27 OH H H NH2 H 3.65 28 Me H H NH2 H 3.77 29 OH H H NO2 H 4.04 30 Me NH2 H NO2 H 4.14 31 Me NH2 NO2 H H 5.34 32 NH2 H H NO2 Me 4.26 33

11、NH2 NO2 Me H H 4.21 34 NH2 H NO2 Me H 4.18 35 Me NO2 H NH2 H 4.46 2. 參數(shù)的計算參數(shù)的計算 分子連接性指數(shù)分子連接性指數(shù)mxt: 0 xp,1xp,2xp,3xp,4xp,5xp,6xp,3xch,6xch,3xc,4xc,5xc,6xc,4xpc, 5xpc,6xpc, 共計共計16個個 Am指數(shù):指數(shù):Am1, Am2, Am3, 共計共計3個個 -Ehomo, -Elumo, 偶極矩偶極矩, 分子生成熱分子生成熱Hform及離子化能及離子化能 Eip, 共計共計5個個 指示變量指示變量二硝基苯二硝基苯或鄰對二硝基苯間單硝

12、基苯0 . 30 . 15 . 0I綜合如上綜合如上4類類, 本工作中對于每一化合物所計算的參數(shù)共本工作中對于每一化合物所計算的參數(shù)共計計25個個. 3. 變量的選擇變量的選擇Leaps and Bounds 回歸分析結果回歸分析結果No.VariablesRF1130.8912227,130.917239,12,130.925941,9,12,130.934851,5,9,12,130.944461,5,9,10,12,130.943671,2,5,7,9,10,130.953281,2,5,6,7,9,10,130.953091,2,3,5,6,7,9,10,130.9525 4. 結果及

13、討論結果及討論 (1) 回歸分析結果回歸分析結果樣本容量為樣本容量為N;變量數(shù)為;變量數(shù)為M, 經(jīng)驗規(guī)則經(jīng)驗規(guī)則: N/M 5. 因為因為N=35, 變量最多可選變量最多可選7個個 -logLC50 = -0.3017+0.1278*2xp- 0.04654*3xp+0.04619*3xc+0.04592*Am1 -0.2958*Ehomo+0.1164*Elumo+0.4237*I R=0.95, F=32, S=0.25, N=35 其中其中, R為相關系數(shù)為相關系數(shù), F為顯著性檢驗為顯著性檢驗, S為標準偏差為標準偏差, N為該類化合物數(shù)目為該類化合物數(shù)目(樣本容量樣本容量).(2)(

14、2)人工神經(jīng)網(wǎng)絡法人工神經(jīng)網(wǎng)絡法 算法:算法:BFGS (Broyden-Fletcher-Goldfarb-Shanno)贗贗- Newton法法 網(wǎng)絡結構:網(wǎng)絡結構:7:3:1 測試集:測試集:30 預測集:預測集:5 結果:結果:R0.993;S=0.092;F=2188;N=35 六六. Methods for variable selection Classical methods a) Forward selection b) Backward elimination c) Stepwise regression Leaps-and-bounds regression Orthog

15、onal descriptors Genetic algorithm Since the three classical methods are known well and many papers on genetic algorithm have been published, thus, next I would want to only introduce the two methods as above mentioned: Leaps-and-bounds regression Orthogonal descriptors1. Leaps-and-bounds regression

16、 This method is based on the fundamental inequality,RSS (A) RSS (Ai) RSS: residual sum of squares; A: any set of independent variables; Ai: a subset of A. e.g.: set A1 contains 3 variables; RSS=596; set A2 contains 4 variables; RSS=605. Thus, all the subsets of A2 will be ignored, because of these s

17、ubsets with RSS greater than that for A2, and also for A1.2. Orthogonal algorithm (cf. M. Randic, New J. Chem., 15(1991)517) (Gram-Schmidt 正交法正交法)若變量集若變量集X有有N個變量按一定規(guī)則排序后為個變量按一定規(guī)則排序后為X1, X2, XN, 第一第一步步, 取取X1為第一個正交基為第一個正交基1, 使使X2, XN和和X1正交正交. 以以X2為例為例, 用用X1作作自變量自變量, X2為因變量進行一元回歸為因變量進行一元回歸, 得得X21=X2 (實

18、際值實際值) X2(計算值計算值), 和和X2一樣由其它變量得到一樣由其它變量得到Xi1. 第二步第二步, 取取X21為正交基為正交基2, 使其它變量使其它變量Xi1和和2正交正交. 重復如上過程直到得到重復如上過程直到得到N個正交變量個正交變量1, 2,N. 由于變由于變量相互間彼此正交量相互間彼此正交, 因而因而, 各變量作用可以單獨測試各變量作用可以單獨測試, 而不受其它變量而不受其它變量的影響的影響, 只要對正交變量只要對正交變量1, 2,N和因變量和因變量Y進行一元回歸計算出進行一元回歸計算出回歸系數(shù)回歸系數(shù)Ri, 即可以計算出它們之間相互組合后的回歸系數(shù)即可以計算出它們之間相互組合

19、后的回歸系數(shù)R, 公式如公式如下下: 式中式中Ri 為正交化的變量為正交化的變量i與性質間的相關系數(shù)。即,首先將原變量正與性質間的相關系數(shù)。即,首先將原變量正交化,并按與性質相關系數(shù)大小排序,然后,很易于進行最優(yōu)變量子交化,并按與性質相關系數(shù)大小排序,然后,很易于進行最優(yōu)變量子集的組合集的組合。12miiRRWe have data x1, x2, x3 and x4 (the raw data are not given here in detail). The following are the results of regressions. On the up half, the reg

20、ressions are performed with x1, x2, x3 and x4. On the down half, the regressions are performed with the orthogonal variables 1 , 2, 3, 4.-Coefficients of regression equations- x1 x2 x3 x4 constant 17.9661 40.4349 6.2334 -3.4705 6.4615 28.6314 3.0516 1.8745 -85.3786 22.0204 0.9347 1.0786 -0.5609 -57.

21、1671 1 2 3 4 constant 17.9661 40.4349 17.9661 -3.4705 40.4349 17.9661 -3.4705 1.8745 40.4349 17.9661 -3.4705 1.8745 -0.5609 40.4349- - Once the descriptors are orthogonalized (as m ) variable selection will be very simple, because we have the following form: Therefore, it is easy to select variables

22、 (m ) based on the ordered m . (cf. B. Lucic et al., J. Chem. Inf. Comput. Sci., 39(1999)610)2/112miiRRNO2R3R2R1R4R53. 比較實例比較實例 (1) 化合物試樣集化合物試樣集硝基苯類化合物硝基苯類化合物 35 nitrobenzenes and their toxic activitiesNo. R1 R2 R3 R4 R5 -log(LC50) (obs) 1 Me H H H H 3.57 2 H Me H H H 3.63 3 H H Me H H 3.76 4 NO2 H

23、H H H 5.45 5 H NO2 H H H 4.38 6 H H NO2 H H 5.22 7 NO2 Me H H H 5.01 8 Me H H NO2 H 3.75 9 Me H NO2 H H 5.15 10 Me NO2 H H H 3.99 11 NO2 H Me H H 5.08 12 H Me H NO2 H 3.91 13 H NO2 H NO2 H 5.29 14 H H H H H 3.02 15 NH2 H H H H 3.70 16 NH2 H H NO2 H 4.07 17 H H OH H H 3.36 18 H H F H H 3.70 19 Me NO2

24、 H NO2 H 4.88 20 NO2 Me NO2 H H 6.37 21 Me NH2 H H H 3.48 22 H Me NH2 H H 3.24 23 H NH2 Me H H 3.35 24 NH2 Me H H H 3.80 25 NH2 H Me H H 3.80 26 NH2 H H Me H 3.79 27 OH H H NH2 H 3.65 28 Me H H NH2 H 3.77 29 OH H H NO2 H 4.04 30 Me NH2 H NO2 H 4.14 31 Me NH2 NO2 H H 5.34 32 NH2 H H NO2 Me 4.26 33 NH

25、2 NO2 Me H H 4.21 34 NH2 H NO2 Me H 4.18 35 Me NO2 H NH2 H 4.46 (2) Calculation of descriptors. Machine: Workstation Indigo2. Software: MOPAC : SYBYL version 6.1 Multiple statistical programs Quantum-chemical parameters: 7; Molecular connectivity indices mxt: 11; Topological indices Ami: 3 Indicativ

26、e variable I: 1 Total: 22 Order (122): I, Hform, Ete, Eip, Er, -Ehomo, , - Elumo, 0 xp, 1xp, 2xp, 3xp, 4xp, 5xp, 6xp, 3xch, 5xc, 6xc, 4xpc, Am1, Am2, Am3.(3) Results and Discussion For saving space, we only give out 36 variable conmbinations. Results of variable selections_No.of vari. Method Variabl

27、e R RMS _ 3 Forward selection 1, 2, 8 0.9098 0.316 Backward elimination 1, 10, 12 0.8895 0.348 Stepwise regression 1, 2, 8 0.9098 0.316 Genetic algorithm 1, 6, 21 0.9150 0.307 Leaps-and-bonds 1, 6, 21 0.9150 0.307 Orthogonal descriptor 1, 2, 20 0.9258 0.288 4 Forward selection 1,2,6,8 0.9126 0.312 B

28、ackward elimination 1,10,11,12 0.9164 0.305 Stepwise regression 1,2,6,21 0.9156 0.306 Genetic algorithm 1,10,11,17 0.9175 0.303 Leaps-and-bonds 1,10,11,17 0.9175 0.303 Orthogonal descriptor 1,2,20,13 0.9367 0.267 _ (Continued )_5 Forward selection 1,2,6,8,21 0.9156 0.301 Backward elimination 1,10,11

29、,12,16 0.9188 0.301 Stepwise regression1) Genetic algorithm 1,5,12,17,19 0.9213 0.296 Leaps-and-bonds 1,5,12,17,19 0.9213 0.296 Orthogonal descriptor 1,2,20,13,8 0.9422 0.255 6 Forward selection 1,2,6,7 8,21 0.9172 0.301 Backward elimination 1,10,11,12,16,20 0.9219 0.295 Stepwise regression 1,2,6,7,

30、8,21 0.9172 0.301 Genetic algorithm 1,9,10,11,16,17 0.9279 0.284 Leaps-and-bonds 1,9,10,11,16,17 0.9279 0.284 Orthogonal descriptor 1,2,20,13,8,3 0.9470 0.245_ From above, we can see that: (1) The results obtained by using three classical methods are very close; (2) Genetic algorithm achieves the sa

31、me best combinations as leaps and bounds regression; (3) The best results obtained by using orthogonal descriptors. Next I would want to discuss these three points slightly in detail.Result 1:Result 1: _ The best one : orthogonal method Why ? The possible reason : the information contained in some d

32、escriptors is “condensed”._ Regression of molar refraction(MR) in heptanes against molecular connectivity indices mx. (cf.M.Randic, New J. Chem.,15(1991)517) 1x: R = 0.0241; 1: R = 0.0241; 2x: R = 0.1635; 2: R = 0.9640; 1x + 2x: R = 0.9646; 1 + 2: R = 0.9646. “ purified 2x, 2, , is not duplicate by

33、1x.” M. Randic The information contained in 2x was “condensed”. Number of variables Method of ordering R RMS_ 3 Based on Ri 0.9278 0.284 Forward selection 0.9256 0.288 Backward elimination 0.8896 0.348 4 Based on Ri 0.9373 0.265 Forward selection 0.9366 0.267 Backward elimination 0.9164 0.305 5 Base

34、d on Ri 0.9456 0.248 Forward selection 0.9420 0.256 Backward elimination 0.9301 0.280 6 Based on Ri 0.9538 0.230 Forward selection 0.9469 0.245 Backward elimination 0.9413 0.257 But orthogonal method is strongly based on the descriptor ordering for orthogonalisation.Result 2_ Genetic algorithm achie

35、ved the same combinations as the leaps-and-bounds regression. _ Genetic algorithm is as an optimization procedure to search a large space and to cope with local minima. But this method is time consuming. Leaps-and-bounds has been used successfully for variable selection. Thus, genetic algorithm is a

36、n accepted procedure for variable selection. Result 3_ The best subsets of descriptors obtained using three classical methods are not so good as the other methods._ Forward selection(FS): once a variable has been entered into the model, it may not be removed. Backward elimination: once a variable ha

37、s been deleted, it cannot be included again. Stepwise procedure is essential the FS, though the selected variable may be removed again. These may cause the results to close the sub-optimal solutions. In addition, it should be pointed out that orthogonal method also depends on the structure of data s

38、et, i.e., the best results cannot be always obtained by using orthogonal descriptors.七七. 幾個問題的討論幾個問題的討論 1. 關于相關性關于相關性 對一個新拓撲指數(shù)的要求有兩點:對一個新拓撲指數(shù)的要求有兩點: (1)和化合物具有好的相關性)和化合物具有好的相關性 (2)對于化合物具有好的選擇性)對于化合物具有好的選擇性 好的相關性不一定具有好的選擇性,如好的相關性不一定具有好的選擇性,如W指數(shù),它和指數(shù),它和化合物性質的相關性通常較好,但選擇性較差;好的選化合物性質的相關性通常較好,但選擇性較差;好的選擇性

39、和化合物的性質不一定好的相關性,如化合物在擇性和化合物的性質不一定好的相關性,如化合物在CAS的登錄號,其選擇性(唯一性)非常好,但和化合的登錄號,其選擇性(唯一性)非常好,但和化合物的性質不具有任何的相關性。物的性質不具有任何的相關性。 同時做到這兩點是比較困難的。同時做到這兩點是比較困難的。 目前的拓撲指數(shù),以目前的拓撲指數(shù),以“無以數(shù)計無以數(shù)計”來說都不過分,但是,來說都不過分,但是,在構效關系研究中,應用最廣泛仍為分子連接性指數(shù)。此指在構效關系研究中,應用最廣泛仍為分子連接性指數(shù)。此指數(shù)有如下特點:數(shù)有如下特點: (1)根據(jù)需要,可以計算出不同)根據(jù)需要,可以計算出不同“階階”和子圖類

40、型的一和子圖類型的一系系 列參數(shù),這為構造預測數(shù)學模型提供了良好的基礎列參數(shù),這為構造預測數(shù)學模型提供了良好的基礎 t: (2)它易于被)它易于被“改造改造”。在算法中,其關鍵環(huán)節(jié)是。在算法中,其關鍵環(huán)節(jié)是 的取的取 值,改變值,改變 的賦值方案,即可得到一套新的參數(shù)。的賦值方案,即可得到一套新的參數(shù)。 (3)選擇性尚好)選擇性尚好2/1.)/(1 (jivtm 2. 關于選擇性關于選擇性 早年的時候人們作的比較多,其目的主要是試圖證明早年的時候人們作的比較多,其目的主要是試圖證明世界上所有的化合物是否可用一個數(shù)學的量來表征。世界上所有的化合物是否可用一個數(shù)學的量來表征。 一般的做法是用飽和的

41、鏈烷烴來進行驗證,因為鏈烷一般的做法是用飽和的鏈烷烴來進行驗證,因為鏈烷烴的異構體易于窮舉。后來,人們發(fā)現(xiàn)提出高選擇性拓烴的異構體易于窮舉。后來,人們發(fā)現(xiàn)提出高選擇性拓撲指數(shù)是一非常困難的事情,于是,其注意力主要放到撲指數(shù)是一非常困難的事情,于是,其注意力主要放到了相關性方面。然而,近年來,我們卻取得了突破性進了相關性方面。然而,近年來,我們卻取得了突破性進展展。 目前世界上最好的拓撲指數(shù)目前世界上最好的拓撲指數(shù)BID (Balaban完成完成)可以唯可以唯 一地表征到含一地表征到含20個碳原子的鏈烷烴,其異構體為個碳原子的鏈烷烴,其異構體為366319個個 BID的不足的不足: 對含環(huán)體系適

42、應能力較差對含環(huán)體系適應能力較差 不能用于含雜原子體系不能用于含雜原子體系 我們的拓撲指數(shù)我們的拓撲指數(shù)EAID 可以唯一地表征含可以唯一地表征含1-22個碳原子個碳原子 的全部的全部380多萬多萬個異構體(含個異構體(含23個碳以上的鏈烷烴尚未驗)個碳以上的鏈烷烴尚未驗) 我們窮舉生成了一系列含我們窮舉生成了一系列含8個原子的化合物共計個原子的化合物共計40多萬多萬個個 異構體,這些結構含環(huán)且高度相似,但異構體,這些結構含環(huán)且高度相似,但EAID均能很好區(qū)分均能很好區(qū)分 而不出現(xiàn)簡并。而不出現(xiàn)簡并。 進行高選擇性拓撲指數(shù)研究的基礎要有一個高效的進行高選擇性拓撲指數(shù)研究的基礎要有一個高效的“結

43、結 構生成器構生成器”;結構產(chǎn)生器是結構解析專家系統(tǒng)的核心。;結構產(chǎn)生器是結構解析專家系統(tǒng)的核心。 結構解析專家系統(tǒng)結構解析專家系統(tǒng) 實驗數(shù)據(jù)實驗數(shù)據(jù)結構片斷集結構片斷集結構生成器結構生成器結構驗證結構驗證結構輸出結構輸出約束約束 關鍵環(huán)節(jié)關鍵環(huán)節(jié) 結構生成器結構生成器 在結構片斷在結構片斷 集基集基 的礎上的礎上 進行整體結進行整體結 (候選化合(候選化合 物)對接物)對接 對生成器的要求是:對生成器的要求是: (1)窮舉性窮舉性 如,含有如,含有20個碳原子的飽和鏈烷烴的異構體為個碳原子的飽和鏈烷烴的異構體為 366319。這些異構體在生成中不能少一個。這些異構體在生成中不能少一個。 (2

44、)無冗余性)無冗余性 就是說,對于上述分子,它僅可生成就是說,對于上述分子,它僅可生成366319個,不個,不 能能 多出一個多出一個 (3)高效性)高效性 非常重要非常重要: (i) 對于同一分子,異構體數(shù)目非常龐大;對于同一分子,異構體數(shù)目非常龐大;(ii) 無效組合數(shù)量龐大無效組合數(shù)量龐大, 如由如由2個個CH3-, 18個個-CH2-對接生成直對接生成直 鏈二十烷烴鏈二十烷烴, 由此可產(chǎn)生由此可產(chǎn)生218!個無效組合。一般的機!個無效組合。一般的機 器,由安裝到報廢也無法完成這樣的計算。器,由安裝到報廢也無法完成這樣的計算。要說明一個結構產(chǎn)生器的窮舉性和非冗余性有兩種要說明一個結構產(chǎn)生器的窮舉性和非冗余性有兩種方法:方法: 從數(shù)學上嚴格對其算法加以證明從數(shù)學上嚴格對其算法加以證明, 如著名的如著名的 DENDRAL系統(tǒng)就是如此系統(tǒng)就是如此 把一些分子式提交給結構產(chǎn)生器進行窮舉生把一些分子式提交給結構產(chǎn)生器進行窮舉生 成成, 然后把其生成結果與已知結果如與然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論