計算機體系結(jié)構(gòu)cha-2.ppt_第1頁
計算機體系結(jié)構(gòu)cha-2.ppt_第2頁
計算機體系結(jié)構(gòu)cha-2.ppt_第3頁
計算機體系結(jié)構(gòu)cha-2.ppt_第4頁
計算機體系結(jié)構(gòu)cha-2.ppt_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

3 向量的流水處理與向量流水處理機,將向量數(shù)據(jù)表示和流水線技術(shù)結(jié)合起來,構(gòu)成向量流水處理機,簡稱向量處理機(Vector Processor) 向量的流水處理 向量流水處理機,向量的流水處理,提高流水性能方法: 增加流水線段數(shù),以減少t 每個時鐘同時啟動多條指令 減少相關(guān),減少功能變換次數(shù),增加處理指令條數(shù)。,向量的流水處理(續(xù)),向量操作特點 向量元素間操作相互獨立,且為相同操作 相當于標量循環(huán),對指令帶寬的訪問要求不高 可采用多體交叉存儲器,減少訪存延遲。 向量操作很適合于流水處理或并行處理。,向量的流水處理(續(xù)),向量處理過程 置VL、VM、A 取向量到V 運算。 向量的分量間采取的是流水方式。 并行處理機(SIMD)處理向量時采取的是并行方式。,向量的流水處理(續(xù)),向量處理工作方式 如:D=A(B+C) 橫向加工:bi+ci-k, k*ai-di 產(chǎn)生N次相關(guān),2N次功能切換,適合標量循環(huán) 縱向加工:bi+ci-ki, ki*ai-di 產(chǎn)生1次相關(guān),1次功能切換,可流水處理 縱橫處理:對向量分組,組內(nèi)縱向、組間橫向處理,向量流水處理機,向量流水處理機的指令系統(tǒng) 向量流水處理機的結(jié)構(gòu) 超級向量流水處理機舉例,向量流水處理機的指令系統(tǒng),包含有向量型和標量型兩類指令 向量型運算類指令 向量V1運算得向量V2,如V2=SIN(V1) 向量V運算得標量S,如 向量V1與向量V2運算得向量V3,V3=V1V2 向量V1與標量S運算得向量V2,V2=S*V1 特殊操作指令 向量比較指令 向量壓縮指令 歸并指令 向量傳送指令,向量流水處理機的結(jié)構(gòu),1972年首次交付使用CRAY-1向量流水處理機 分布異構(gòu)型多處理機系統(tǒng),由中央處理機、診斷維護控制處理機、大容量磁盤存儲子系統(tǒng)、前端處理機組成 6個流水線單功能部件:整數(shù)加、邏輯運算、移位、浮點加、浮點乘和浮點迭代求倒數(shù) 向量寄存器由512個64位寄存器組成,分成8組,超級向量流水處理機舉例,1972年成立CRAY公司,至今生產(chǎn)了400臺以上的超級計算機 1979年CRAY-1S,CRAY-1改進型,有10條流水線 1983年CRAY X-MP,用4臺CRAY-1 1985年CRAY-2S 1988年CRAY Y-MP,8臺處理機 1991年CRAY Y-MP C-90 1996年12月,克雷研究公司也被SGI公司以7.5億美元收購 2000年,被Tera公司合并,同年更名Cray 目前產(chǎn)品:MTA、SV1、SX_6、T3E 2002年Cray X1。運算速度最高為每秒52萬億次,支持65.5TB存儲器。 宣布了在2010年以前實現(xiàn)能夠連續(xù)地處理每秒1000萬億次 Cray公司稱,他們將在2008年使用四核心的AMD Opteron處理器建造XT4超級計算機,并將在2009年接近1Pflops(每秒1000萬億次浮點運算)能力。 網(wǎng)址:,超級向量流水處理機舉例(續(xù)),CDC公司1973年推出第一臺超級計算機STAR-100 1964年CDC-6600 RISC特征 1982年 CYBER 205 1999年 被Syntegra收購 ETA10:8個CPU 網(wǎng)址:,幾種超級計算機的向量性能和標量性能,向量平衡點(vector balance point)定義為:為了使向量硬件設(shè)備和標量硬件設(shè)備的利用率相等,一個程序中向量代碼所占的百分比。,4 指令級高度并行的超級計算機,超標量處理機 超流水線處理機 超標量超流水線處理機 超長指令字處理機,超標量處理機,采用多指令流水線(度=m) 配置多套功能部件、指令譯碼電路和多組總線,并且寄存器也備有多個端口和多組總線。 適合于求解稀疏向量、矩陣 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone(颶風(fēng))等,超標量處理機(續(xù)),超標量處理機基本結(jié)構(gòu),一般流水線處理機: 一條指令流水線 一個多功能操作部件,每個時鐘周期平均執(zhí)行指令的條數(shù)小于1。 多操作部件處理機: 一條指令流水線 多個獨立的操作部件,操作部件可以采用流水線,也可以不流水 多操作部件處理機的指令級并行度小于1 超標量處理機典型結(jié)構(gòu): 多條指令流水線 進的超標量處理機有:定點處理部件CPU,浮點處理部件FPU,圖形加速部件GPU 大量的通用寄存器,兩個一級高速Cache 超標量處理機的指令級并行度大于1,舉例: Motorola公司的MC88110,10個操作部件 兩個寄存器堆:整數(shù)部件通用寄存器堆,32個32位寄存器;浮點部件擴展寄存器堆,32個80位寄存器。每個寄存器堆有8個端口,分別與8條內(nèi)部總線相連接,有一個緩沖深度為4的先行讀數(shù)棧和一個緩沖深度為3的后行寫數(shù)棧。 兩個獨立的高速Cache中,各為8KB,采用兩路組相聯(lián)方式。 轉(zhuǎn)移目標指令Cache,在有兩路分支時,存放其中一路分支上的指令,超標量處理機MC88110的結(jié)構(gòu),單發(fā)射與多發(fā)射,單發(fā)射處理機: 每個周期只取一條指令、只譯碼一條指令,只執(zhí)行一條指令,只寫回一運算結(jié)果 取指部件和譯碼部件各設(shè)置一套 可以只設(shè)置一個多功能操作部件,也可以設(shè)置多個獨立的操作部件 操作部件中可以采用流水線結(jié)構(gòu),也可以不采用流水線結(jié)構(gòu) 設(shè)計目標是每個時鐘周期平均執(zhí)行一條指令,ILP的期望值1,單發(fā)射處理機的指令流水線時空圖,單發(fā)射與多發(fā)射(續(xù)),多發(fā)射處理機: 每個周期同時取多條指令、同時譯碼多條指令,同時執(zhí)行多條指令,同時寫回多個運算結(jié)果 需要多個取指令部件,多個指令譯碼部件和多個寫結(jié)果部件 設(shè)置多個指令執(zhí)行部件,復(fù)雜的指令執(zhí)行部件一般采用流水線結(jié)構(gòu) 設(shè)計目標是每個時鐘周期平均執(zhí)行多條指令,ILP的期望值大于1,多發(fā)射處理機的指令流水線時空圖,超標量處理機: 一個時鐘周期內(nèi)能夠同時發(fā)射多條指令的處理機稱為超標量處理機 必須有兩條或兩條以上能夠同時工作的指令流水線 先行指令窗口: 能夠從指令Cache中預(yù)取多條指令 能夠?qū)Υ翱趦?nèi)的指令進行數(shù)據(jù)相關(guān)性分析和功能部件沖突的檢測 窗口的大小:一般為2至8條指令 采用目前的指令調(diào)度技術(shù),每個周期發(fā)射2至4條指令比較合理,舉例,Intel公司的i860、i960、Pentium處理機, Motolora公司的MC88110處理機,IBM公司的Power 6000處理機等每個周期都發(fā)射兩條指令 TI公司生產(chǎn)的SuperSPARC處理機以及Intel的Pentium III處理機等每個周期發(fā)射三條指令 操作部件的個數(shù)多于每個周期發(fā)射的指令條數(shù)。4個至16個操作部件 超標量處理機的指令級并行度:1ILPm;m為每個周期發(fā)射的指令條數(shù)。,超流水線處理機,兩種定義: 一個周期內(nèi)能夠分時發(fā)射多條指令的處理機稱為 超流水線處理機。 指令流水線有8個或更多功能段的流水線處理機稱為超流水線處理機。 提高處理機性能的不同方法: 超標量處理機是通過增加硬件資源為代價來換取處理機性能的。 超流水線處理機則通過各硬件部件充分重疊工作來提高處理機性能。 兩種不同并行性: 超標量處理機采用的是空間并行性 超流水線處理機采用的是時間并行性,指令執(zhí)行時序,每隔1/n個時鐘周期發(fā)射一條指令,流水線周期為1/n個時鐘周期 在超標量處理機中,流水線的有些功能段還可以進一步細分 例如:ID功能段可以再細分為譯碼、讀第一操作數(shù)和讀第二操作數(shù)三個流水段。也有些功能段不能再細分,如WR功能段一般不再細分。 因此有超流水線的另外一種定義:有8個或8個以上流水段的處理機稱為超流水線處理機,超流水線處理機(續(xù)),每個時鐘周期分時發(fā)送3條指令的超流水線,舉例: MIPS R4000,MIPS R4000處理機每個時鐘周期包含兩個流水段,是一種很標準的超流水線處理機結(jié)構(gòu)。指令流水線有8個流水段 有兩個Cache,指令Cache和數(shù)據(jù)Cache的容量各8KB,每個時鐘周期可以訪問Cache兩次,因此在一個時鐘周期內(nèi)可以從指令Cache中讀出兩條指令,從數(shù)據(jù)Cache中讀出或?qū)懭雰蓚€數(shù)據(jù)。 主要運算部件有整數(shù)部件和浮點部件,MIPS R4000處理機的流水線操作,MIPS R4000正常指令流水線工作時序,超標量超流水線處理機,把超標量與超流水線技術(shù)結(jié)合在一起,就成為超標量超流水線處理機 指令執(zhí)行時序 超標量超流水線處理機在一個時鐘周期內(nèi)分時發(fā)射指令n次,每次同時發(fā)射指令m條,每個時鐘周期總共發(fā)射指令m n條。,每時鐘周期發(fā)射3次,每次3條指令,舉例: DEC公司的Alpha,DEC公司的Alpha處理機采用超標量超流水線結(jié)構(gòu)。主要由四個功能部件和兩個Cache組成:整數(shù)部件EBOX、浮點部件FBOX、地址部件ABOX和中央控制部件IBOX。 中央控制部件IBOX可以同時從指令Cache中讀入兩條指令,同時對讀入的兩條指令進行譯碼,并且對這兩條指令作資源沖突檢測,進行數(shù)據(jù)相關(guān)性和控制相關(guān)性分析。如果資源和相關(guān)性允許,IBOX就把兩條指令同時發(fā)射給EBOX、ABOX和FBOX三個指令執(zhí)行部件中的兩個。 指令流水線采用順序發(fā)射亂序完成的控制方式。在指令Cache中有一個轉(zhuǎn)移歷史表,實現(xiàn)條件轉(zhuǎn)移的動態(tài)預(yù)測。在EBOX內(nèi)還有多條專用數(shù)據(jù)通路,可以把運算結(jié)果直接送到執(zhí)行部件。,舉例: DEC公司的Alpha,Alpha 21064處理機共有三條指令流水線整數(shù)操作流水線和訪問存儲器流水線分為7個流水段,其中,取指令和分析指令為4個流水段,運算2個流水段,寫結(jié)果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執(zhí)行部件FBOX的延遲時間為6個流水段。 所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設(shè)置由專用數(shù)據(jù)通路。 析指令為4個流水段,運算2個流水段,寫結(jié)果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執(zhí)行部件FBOX的延遲時間為6個流水段。 所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設(shè)置由專用數(shù)據(jù)通路。 Alpha 21064處理機的三條指令流水線的平均段數(shù)為8段,每個時鐘周期發(fā)射兩條指令。因此,Alpha 21064處理機是超標量超流水線處理機。,三種指令級并行處理機性能比較,超標量處理機、超流水線處理機和超標量超流水線處理機相對于單流水線普通標量處理機的性能曲線。,結(jié)論,三種處理機的性能關(guān)系超標量處理機的相對性能最高,其次是超標量超流水線處理機,超流水線處理機的相對性能最低,主要原因如下: 超標量處理機在每個時鐘周期的一開始就同時發(fā)射多條指令,而超流水線處理機則要把一個時鐘周期平均分成多個流水線周期,每個流水線周期發(fā)射一條指令;因此,超流水線處理機的啟動延遲比超標量處理機大。,結(jié)論(續(xù)),條件轉(zhuǎn)移造成的損失,超流水線處理機要比超標量處理機大。 在指令執(zhí)行過程中的每一個功能段,超標量處理機都重復(fù)設(shè)置有多個相同的指令執(zhí)行部件,而超流水線處理機只是把同一個指令執(zhí)行部件分解為多個流水級;因此,超標量處理機指令執(zhí)行部件的沖突要比超流水線處理機小。,結(jié)論(續(xù)),實際指令級并行度與理論指令級并行度的關(guān)系 當橫坐標給出的理論指令級并行度比較低時,處理機的實際指令級并行度的提高比較快。 當理論指令級并行度進一步增加時,處理機實際指令級并行度提高的速度越來越慢。 在實際設(shè)計超標量、超流水線、超標量超流水線處理機的指令級并行度時要適當,否則,有可能造成花費了大量的硬件,但實際上處理機所能達到的指令級并行度并不高。 目前,一般認為,m 和 n 都不要超過4。,結(jié)論(續(xù)),最大指令級并行度 一個特定程序由于受到本身的數(shù)據(jù)相關(guān)和控制相關(guān)的限制,它的指令級并行度的最大值是有限的,是有個確定的值。這個最大值主要由程序自身的語義來決定,與這個程序運行在那一種處理機上無關(guān)。對于某一個特定的程序,圖中的三條曲線最終都要收攏到同一個點上。當然,對于各個不同程序,這個收攏點的位置也是不同的。,超標量處理機: Intel公司的i860, i960, Pentium處理機 Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等 超流水線處理機: SGI公司的MIPS R4000, R5000, R10000等 超標量超流水線處理機: DEC公司的Alpha等,超標量、超流水、超標量超流水處理機的主要性能,超長指令字處理機(VLIW),VLIW (Very Long Instruction Word) 是將水平型微碼和超標量處理兩者結(jié)合的結(jié)構(gòu) 指令字長可達數(shù)百位,多個功能部件并發(fā)工作,共享大容量寄存器堆。 是一種單指令多操作碼多數(shù)據(jù)的系統(tǒng)結(jié)構(gòu)(SIMOMD),超長指令字處理機(續(xù)),超長指令字處理機(續(xù)),EPIC Explicitly Parallel Instruction Computing,顯性并行指令計算 1994年,Intel和HP決定聯(lián)合開發(fā)新一代微處理器基于IA-64架構(gòu)的Merced,并共同定義了顯性并行指令計算技術(shù)EPIC. IA-64指令系統(tǒng)的統(tǒng)稱。 集成RISC和VLIW各自的優(yōu)勢技術(shù),指令字長為128位,包含三個40位的指令和一個8位的模版代碼。 每個指令分為多個獨立的操作字段,每個字段可分別控制各個功能部件并行工作,而模版中包含各指令間并行處理的信息,依據(jù)模版代碼信息,可同時在不同的執(zhí)行單元中執(zhí)行三條沒有相關(guān)性的指令,控制并行處理關(guān)系,提高并行處理能力,EPIC,EPIC是一種超越超標量的新模式,它克服了VLIW處理器的缺點,實現(xiàn)下面的3步: 由編譯器先分析指令間的依賴關(guān)系; 編譯器將沒有依賴關(guān)系的指令,按最多是3個指令為一組,組合成多個“組”; 由內(nèi)置的執(zhí)行單元將分成組的指令群并行執(zhí)行。 因每條指令究竟分給哪一個執(zhí)行單元是由軟件決定的,因而利用簡單的硬件就可以提高指令的并行度,降低了處理器的制造成本。,RVIP技術(shù)和CRVIP技術(shù),RVIP(RISC-VLIW Processor)技術(shù)和CRVIP(CISC-RISC-VLIW Processor)技術(shù)是將RISC超標量結(jié)構(gòu)與VLIW技術(shù)融為一體,或?qū)RIP(CISC-RISC Processor)混合結(jié)構(gòu)與VLIW技術(shù)融為一體的技術(shù). 在融合VLIW和超標量結(jié)構(gòu)技術(shù)的RVIP型或者CRVIP型微處理機中,將不必在其執(zhí)行部件中設(shè)置復(fù)雜的執(zhí)行順序控制電路。因為在指令分發(fā)調(diào)度之前就已經(jīng)弄清楚了這些指令之間的相關(guān)聯(lián)性。 VLIW技術(shù)滲入的顯著效果之一,就是它消除了超標量結(jié)構(gòu)的過分的復(fù)雜性,從而使硬件系統(tǒng)結(jié)構(gòu)設(shè)計獲得簡化。,Itanium 2,HP Integrity Superdome HP-U

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論