計算機課件高性能計算機體系結構和設計_第1頁
計算機課件高性能計算機體系結構和設計_第2頁
計算機課件高性能計算機體系結構和設計_第3頁
計算機課件高性能計算機體系結構和設計_第4頁
計算機課件高性能計算機體系結構和設計_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高性能計算機體系結構和設計

北京航空航天大學計算機學院

1,圖靈機Turingmachine,可計算性

2,馮.諾伊曼機,VonNewmancomputer

3,串行機,serialcomputer

4,并行機,parallelcomputer

5,高性能計算機,highperformancecomputer,HPC

6,關于計算機基礎知識的兩個問題

(1),2個輸入端一個輸出端的組合邏輯電路共有多少種?

(2),1個輸入端一個輸出端的時序邏輯電路最多有多少種?

基本概念

高性能計算機及分類,實現高性能的途徑-并行

平衡性,局部性,周期隱藏

SISD,SIMD,MIMD,MISD,SPMD

指令級并行,VLIW,EPIC

流水線,向量機,PVP,數組處理機

SMP,緊偶合,共享存儲,Cache一致性

MPP,機群,松散偶合,分布式存儲

ccNUMA,計算資源虛擬化

基本計算模式:

主機/終端,客戶機/服務器,服務器聚集,網格計算,云計算

高性能計算機

-何為高性能計算機?

速度,功能,存儲容量

與時俱進的標準:

1970's,1980's,1990's,21世紀初

小型計算機,大型計算機

服務器,高性能服務器,超級服務器

超級計算機

高端計算機,世界TOP500,中國TOP100

-獲得高性能的途徑

提高部件性能極其限度:CPU,內存,磁盤,網絡

并行處理,設計優化,性能優化

開發局部性:空間局部性,時間局部性

并行性與局部性的矛盾

周期隱藏

局部性(locality)

空間局部性:

cache內:數據塊

內存中

結點內

本地機器內

時間局部性:最近用到的數據

并行性與局部性的矛盾

計算機一從串行到并行

基本的串行計算機結構

從串行到并行

先行控制

運算器控制器

寄存器堆

總線

(內存控制)

交叉存儲

內存(多體)

店£>01/0聯想

計算機一從串行到并行

并行為什么:計算量超過串行機能力極限:蛋白質折疊。(1021

1,大部件之間的并行

例:控制器和運算器的并行:

取指令,譯碼w9運算

控制器W=>存儲器,運算器:先行控制

2,部件內的并行

運算器內多部件間并行:加法器,乘法器

多條加法流水線,多條乘法流水線

存儲器:多模塊并行工作一交叉存儲

并行輸入/輸出(I/O)

3,基于多部件的指令級并行:一條指令包含多個操作,VLIW

4,多CPU并行

5,多計算機(結點機)并行

6,元計算(metacomputing).,

高性能計算機分類

基于訪存模式的分類

基于播令流/微據流的今類

1,機群系統:

IA+Linux/NT:聯想深騰1800系列,性價比高

RISC+Unix:IBMsp系列,性價比低

2,UNIXSMP小型機:IBM690,SUN,

商務計算為主,易編程,可擴展性差

3,(傳統)大規模并行機(mpp):T3E,曙光1000

編程不易,曾停止發展

CrayXT系列的RedStorm重新抬頭震髓體積力

高性能計算機分類

4,向量機(傳統超級機):CRAY,銀河I

不再單獨發展

5,向量并行機:NEC地球模擬器,CrayXI

速度高,效率高,昂貴,專用,非產品化

在世界TOP500份額居第二

6,ccNUMA:SGIQrigin3000,Altix3000

兼顧可擴展性和可編程性

7,專用機:IBMBlueGene,BlueGen/L

解決規模(速度)和體積功耗矛盾

跖戲恕

主流同檔計算機——機群系統

世界TOP500中(貼標簽)的機群

1999年3套,2002年11月:56套

2003年6月123套,2003年11月:208套

2004年6月291套,

2006年6月365套,2009年6月408套,占81.6%份額.

另外,還有星座(SMP)機群

IA機群系統異軍突起、進入主流市場:石油、氣象、網格

原因?原因?原因?

IACPU芯片速度趕上/超過了RISC芯片

高速互連網成熟且產品化:Myrinet,Quadrics,InfiniBand

開放源碼操作系統Linux日益成熟

?性能價格比高:與UNIX大型機比一5.4I),6倍(大氣明

基于訪存模式的體系結構分類

基本形式

共享存儲:SMP

分布式存儲:MPP,機群

分布式共享存儲(DSM:DistributedSharedMemory)

共享虛存(SVM:SharedVirtualMemory)

NUMA:Non-UniformMemoryAccess

ccNUMA:CacheCoherentNUMA(一種DSM)

SGI:0rigin3000,Altix3000

基于婚令濡/數據濡的體余秸相分類

指令流(程序流)/數據流并行

單指令流單數據流(SISD):單CPU計算機

單指令流多數據流(SIMD):數組處理計算機

多指令流單數據流(MISD:棧計算機(無實用機)

多指令流多數據流(MIMD):MPP,cluster

SPMD:單程序/多數據流,MPP,cluster

MPMD:多程序流/多數據流,高吞吐(事務處理)

CPU芯片發展趨勢

1996年會議預言:

CPU芯片最終收斂到兩家:Intel,IBM

理由:市場規模決定芯片生存

現實:志強/安騰趕上/超過RISC芯片,單

CPU速度達到每秒100億次

IBM采用銅連線、絕緣襯底、Lowk技術

Power6速度超過80億次/秒

HP/Compaq向INTEL靠攏,Alpha停止發展

SUN:采用志強

SGI:放棄MIPS,采用IA64做Altix服務器

最終趨勢:IA和RS6000(IBMPower)存在和發展

芯片技術發展:兩極化趨勢

USS

SPARC??

Power

Xeon

AMD

Antium?

AMD

芯片發展趨勢

Moore定律

每18個月(Moore周期)速度翻番,容量大一倍,價格降一半.

從1970年代一2000年,正確

2000年后Moore周期:22—24個月

Moore定律適用到何時?

2020年.

Moore定律不適用的原因?

多核芯片

多核芯片Multi-Core解決體積/功耗體積問題

AMD雙核芯片Intel4核芯片

HT:HyperTransfer

多核芯片功耗同單CPU芯片一樣

多線程

Manymulti-threads

多核芯片-AMD

HyperTmniport^TccimologyHriu

MemoryisDirectlyAllowforGluck”CPUConnectionMemoryCapacityScnie?

CanneftedcoProceuonandSenlableI/OEwpotuiohw/NumberofProceiiQHL

AMDAMD

DDRDDR

kH-McOpteron"'OpteronM4ble

ProcessorProcessor

MuiDrawttDktct

口m*AnMuiaurtCOOMYIAn兮smR

SeparateMemoryand—?Processor?areDirectly

P>rhiElFminntcConroctodtounkh

nonBusContsnuonP心BOCKCUEareBan

ConnectedOn-dleVO

77OPCI

PCbX

PCI-XM■_I

BridgeExpress

GBE.SATA.—

IDE.USB,二

LPC.Etc.—JHuba

-WhatisGPUComputing?

一GPUcomputingistheuseofaGPU(graphicsprocessing

unit)todogeneralpurposescientificandengineering

computing.

ThemodelforGPUcomputingistouseaCPUandGPU

togetherinaheterogeneouscomputingmodel.The

sequentialpartoftheapplicationrunsontheCPUandthe

computationally-intensivepartrunsontheGPU.Fromthe

user'sperspective,theapplicationjustrunsfasterbecauseit

isusingthehigh-performanceoftheGPUtoboost

performance.

No.ofcores>100

1.OTeraFlpos/chip

(singleprecision)

店£>01/0聯想

CELL芯片結構框圖

SIMD,單精度>256GFlops,協處理器/單元

雙精度>26GFLOPSSPUSPE

Dual

流水線與向量機

流水線:pipelines

向量處理機:vectorprocessor,并行向量處理機(PVP)

數組處理機:arrayprocessor

內存訪問流水線

消息傳遞流水線(/messagequeue)

數組處理機

arrayprocessor

如何用數組處理機

進行矩陣運算?

Master

processor

主控程序

處理單元(PE)陣列:SIMD

共享存儲對稱式多處理機

共享存儲編程模式

對稱式,緊耦和

連接網絡:

總線(圖):流水線結構,帶寬,延遲

交叉開關CrossBar(草圖)

多級網(草圖)

Cache:時間/空間局部性,存儲層次,組織,更新,一致性

程序(program),進程(process),線程(thread)

并行編程工具OpenMP

優點

缺點:可擴展性差

RISC+UNIX小型機

/enoi/o聯想

SMP:SymmetricMulti-Processing

i/o設備

SMP:SymmetricMulti-Processing

緩存一致性(Cachecoherence)問題

I/O設備

Cache一致性問題的解決

存儲器更新策略:

“立即寫”策略(write?through)WR

“后寫”策略(Write-back)WB:緩存塊更新時寫回

產生的問題:

“立即寫”策略時:一致性問題(cache-cache,cache-內存)

“后寫”策略時:一致性(區別?)

Cache一致性策略:

總線偵聽:snooping

基于“廢棄”(invalidation)的一致性策略:偵聽總線寫與cache相關,廢棄

cache中相關內容

基于"更新”(update)的一致性策略:以偵聽到的總線寫的內容

更新cache

Cache一致性策略與存儲器更新策略的組合

WR-I,WR-U,WB-I,WB-U

選擇一致性策略的因素:復雜性,性能/效制成現>1”>聯想

MPP:MassivelyParallelProcessing

分布式存儲(編程模式),松散耦合,

消息傳遞,粗粒度并行,

可編程性/可擴展性

與數組處理機的區別兒

機群(clusters)

Nodes(結點機)

CPUCPUCPU

內存iq

內存,1/0內存,I/O

III

------A-------a

連接網絡

結點機:服務器(1-nCPU)/工作站(NOW)/PC機/機群

星群:constelletion

機群與MPP的根本區別

網絡計算模式演變

主機/終端

客戶機*務器

Client/Server

I

服務器聚集

網才J十算

云計算

跖戲恕

網絡計算模式

1,主機(mainframe)/終端(1980年代中期年以前)

直接I/O連接或互連網連接

效率高,

開放性,擴充性差,技術復雜

2,客戶機/服務器(client/server)(1980年代后期以來)

基于局域網(LAN)或廣域網(WAN)

開放、可擴充

難管理

總擁有成本(TCO)高

網絡計算模式(續)

|,服務器聚集(serverconsolidation)。。年代中后期以來)

?同時提供多種服務

?基于局域網LAN

?綜合1,2的優點,去其缺點

?開放,可擴充,易管理,TCO低

4,網格計算:共享資源

?分布于寬帶廣域網(WAN)上的“格點”,

?共享地理分布各類資源:服務器,數據,貴重儀器等

?格點內服務器聚集

?像使用水和電一樣,不關心計算在何處進行

?網格操作系統(Globus),網格前端環境

5,云計算(Cloudcomputing)資源分配

將任務分配給網絡連接、服務器、存儲等資源。

_回題;..能力,效率,安全性.

結點動態分區

盤陣

光盤庫與服務器聚集

云計算

1,云計算的內涵

云計算定義l(WIKI):將IT能力以服務的方式通過互聯網提供給用戶

云計算定義2:將任務分配給網絡連接,服務器,存儲等資源

i),信息技術將成為標準的常規技術

網絡計算將變為服務計算:

-aaS:--------asaservice

SaaS:Softwareasaservice

HaaS:Hardwareasaservice

PaaS:Platformasaservice

laaS:Infrastructureasaservice

DaaS:Developmentasaservice

ii),云計算的終極目標:云計算將IT業變為"公用事業”(utility)

對產業和社會生活的影響

業務模式:

按需使用,用多少付多,無前期投資,無運行維護費用

云計算(續)

iii),云計算架構

計云應用:Sales.Force,

算云平臺:GoogleAppEngine

云基礎設施:

本AmazonAWS,EC2,S3

架云分布:Akamai,MITLeighton(ACMJournal前主編)Lewin等教授創辦

構云設備:IBM,HP,Lenovo,EMC,Microsoft,...

齡,云計算與網格計算的區別:資源分配與資源共享

1i),云計算的前途

I企業界,學術界,消費者,政府共同參與決定云計算前途

I(網格計算:主要在學術界)

目標明確,架構清晰,分工合理,有業務模式,有理論技術基礎

店£>01/0聯想

2,云計算技術

i)云計算核心技術:

--云應用和服務技術

-云平臺技術

--云基礎設施技術

-云分布技術(包括內容推送網絡CDN-contentdeliverynetwork),優化

一云安全技術

-云存儲技術

-虛擬化技術

ii),云計算硬件/軟件

云端高性能服務器:

可擴展性,高能效,高可靠性,高適應性,高安全性

高端計算機(同HPC方向協同),

云存儲:

主要研究按內容尋址存儲,CAS

云終端:

硬件(PC/手持機),系統軟件,瀏覽器,云服務交互系統

大規模并行處理系統結構設計規范

系統設計目標:浮點速度,字長,內存總容量,磁盤總容量,

點-點通信帶寬,等分帶寬(bi-section),

可擴展性,系統均衡性

系統結構:可擴展分布式(共享?)存儲,MIMD/SPMD

結點機:單/SMP,CPU種類與主頻,cache,內存,I/O接口

互連網絡:高速網:mesh(2D/3D),Tree,nCUBE;以太網

結點.網絡接口:與高速網對應,單/雙卡,帶寬

大規模并行處理系統結構設計規范(續)

I/O:專用/通用結點機,PCI/專用通道,SAN/NAS

外部網絡連接:前端機/客戶機

操作系統:

結點OS(Unix/Linux/WindowsNT),

并行OS(activemessage),實/虛存,并行文件系統

使用模式:批處理/交互式,獨占/多用戶,client/server,

直接login,遠程host,網格

并行編程環境:并行優化編譯,庫函數,調試器,

PVM/MPI,HPF

可視化工具:并行程序運行可視化,運行結果可視化

MPP結構設計規范實例(曙光1000,1995)

系統設計目標:

浮點速度:25?6億次/秒,32CPU(計算)

內存總容量:1024MB,磁盤總容量:5GB

點一點通信帶寬:80MB/秒(雙);等分帶寬:480MBS

可擴展性:CPU數,內存,磁盤,通信,I/O

系統結構:MIMD,分布式內存

結點機:計算結點32個,單CPU,i860,40MHz,2指令/clock,

內存32MB;

I/O結點2個;服務結點2個

互連網絡:2_Dmesh,wormhole機制,規模:6X6;

結點■網絡接口:雙向DMA,FIFO,帶寬80MB/秒(雙向)

MPP結構設計規范實例(曙光1000,1995)

I/O:I/O結點機磁盤/盤陣

外部網絡連接:服務結點1■-以太網--前端機(客戶機)

操作系統:結點:SCO-UNIX

通信系統(通信庫函數)

(activemessage)

資源管理,作業管理,系統管理

并發文件系統(CFS)

使用模式:客戶機/服務器,批處理,前端機上交互

并行編程環境:并行Fortran,C,C++,EXPRESS/PVM

自動并行工具:AutorPar,并行調試器NDB

庫函數:BLAS,PBLAS

可視化工具:ParaVision

MPP系統結構設計案例研究:曙光1000

典型的MPP系統:CM5,nCUBE,Paragon,T3D/E/F

曙光1000系統總框圖

計算結點機框圖

計算結點總線-Mesh接口:

接收/發送FIFO,異步收發控制,代碼校驗

1/0(服務)結點EISA總線一Mesh接口(圖):

EISA總線端:雙向DMA(直接內存存取)

Mesh端:接收/發送FIFO,異步收發控制,

代碼校驗_

曙光1000大規模并行處理系統

WRC

I/O結點

計用服務

結點結點

前端機

I/O設備

計算結點機體系結構

MESH

I/O和服務結點機(服務器)體系結構

MPP(Cluster)通信系統

?通信流程

?通信網絡

?路由機制

?路由(尋徑)規則

?通信芯片及設計

?消息傳遞界面MPI

?通信優化一主動消息傳送activemessaging

MPP(Cluster)的通信流程

MPI并行程序中的發送(Send)語句

狀態切換(contextswitching):用戶態9OS態

Memorycopy:(被傳數據)用戶空間分系統空間

打包

啟動發送

返回用戶態

MPI并行程序中的接收(Send)語句

查詢方式(主動)/中斷方式(被動)

狀態切換(contextswitching):用戶態9OS態

接受,解包

Memorycopy:(已接收的數據)系統空間少用戶空間

返回用戶態

基本路由交換技術

1,電路交換(circuitswitching)

一次消息傳遞獨占一條通路,到達目的結點后才釋放

Senderreceiver

2,存儲轉發(storeandforward)

整個消息(一個包)在向下一結點發送前完全緩存在

一個中間結點

(空間)存儲轉發

通路

集合等待時間

時間

,包交換(packetswitching)

將消息分成若干較小的消息包(packets),每個包以存儲

轉發方式發送

4,虛切入(virtualcutthrough一VCT)

包傳送,前面不堵塞,就前進.否則就緩沖起來等待.

通路1阻塞1--------1

.等待I

5,Wormholerouting

每個結點只有少量緩沖,一旦堵塞就像蟲樣擺在路上,不

堵時繼續前進.消息包無需進入結點機內存.

堵塞時間一翼

多維度比較幾種路由交換方式.

總延遲時間緩沖區占用結點數

(通道數)

虛切^<短大較多

Wormhole短最小最多

(不進內存)

包交換長大2(1)

存儲轉發長最大2(1)

電路交換短/全部

ik曙光1000

>>通信網絡

6X6

院Wormhole

Mesh

(與Crossbar

WRC?的區別?)

高速Mesh網絡的可擴展性

通信背板:6X6

(2)*(6x6)擴展為6x12

(4)*(6x6)擴展為12x12

通路增加,路徑短

須避免死鎖

WormholeRouting

結點1結點2結點3結點n

Wormhole路由機制

結點

虛通道

Wormholerouting

特點:

自動路由(尋路)

高帶寬低延遲

虛通路

易于實現

消息包格式

包頭|消息體|tail

消息體:消息片(Hits)

包頭:X地址增量|Y地址增量|消息長度

路由規則:

按維路由

先X后Y/先Y后X路由,xy=00時達目的結點

自適應路由:Adaptiverouting:概念,優勢,缺點

WormholeRouting

消息格式△y

尾消息體

消息片(flit)消息頭

Ho

路由算法

WormholeRoutingChip(WRC)設計

PYoNYi

Hi

Ho

PXi

NPXo

WRC

NXoNXi

PYiNYo

Ho

分層結構

PXiNXoPYiNYo

Wormhole數據通路設計(單層一X層)

Wormhole數據通路設計

C

LI由

SOSIS2S3異步控制單元

ACE

A

控制邏輯3CE=

路由控制部件RCU店£>01/0聯想

Wormhole路由器設計問題

-1,異步前進:僅當Lj+i非鎖存數據時,匕才能能發新的申請;當Lj+i鎖

存時,L不再鎖存同一數據片(往前傳)

異步控制邏單元(ACE)如何設計?

2,公(氯)判正負和零,修改,剝離;

3,狀態機(SO,SI,S2,S3)和控制邏輯的設計

4,路由開關設計

消息競爭:在競爭輸出鎖存器L3時發生.

1),被堵塞:進入mesh時或拐彎時;前進道路已被占領

2),隨機競爭:異步邏輯無時鐘同步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論