




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
時(shí)間序列數(shù)據(jù)處理9-2TimeSeriesDataProcessing內(nèi)容概述本章學(xué)習(xí)目標(biāo)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析(1)了解時(shí)間序列分析的應(yīng)用場(chǎng)景;(5)熟悉時(shí)間偏置DateOffset對(duì)象和窗口函數(shù);(4)掌握dt對(duì)象的屬性和方法;(2)掌握Datetimes數(shù)據(jù)類(lèi)型的屬性和方法;(3)掌握Timedeltas數(shù)據(jù)類(lèi)型的屬性和方法;(6)利用Pandas進(jìn)行簡(jiǎn)單的時(shí)間序列分析。目錄CONTENTS財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析9.2時(shí)間序列數(shù)據(jù)處理
1時(shí)間序列概述2時(shí)間點(diǎn) 3時(shí)間差 4時(shí)間偏置5窗口函數(shù)【Python財(cái)務(wù)數(shù)據(jù)分析】——財(cái)務(wù)數(shù)據(jù)的時(shí)間序列數(shù)據(jù)分析時(shí)間序列概述PartOne01財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)間序列概述時(shí)間序列是按時(shí)間順序索引的一系列數(shù)據(jù)點(diǎn)。最常見(jiàn)的時(shí)間序列是在連續(xù)的等間隔時(shí)間點(diǎn)上獲得的序列有關(guān)時(shí)間序列的應(yīng)用場(chǎng)景,分為以下4種情況:(1)時(shí)間點(diǎn)。即特定的時(shí)刻,記錄時(shí)間維度的具體一個(gè)位置。(2)時(shí)間差。兩個(gè)時(shí)間點(diǎn)做差就得到了時(shí)間差。時(shí)間差可以是幾年,幾個(gè)月,幾天,幾分,幾秒,甚至小到納秒。因?yàn)槭菚r(shí)間差值,因此既可以是正數(shù),也可以是負(fù)數(shù)。(3)時(shí)間跨度。即以時(shí)間為計(jì)量的迭代單位,時(shí)間記錄迭代步長(zhǎng),以時(shí)間為計(jì)量的規(guī)律變化的一種時(shí)間差。(4)時(shí)間偏置。日期偏置是一種和日歷相關(guān)的特殊時(shí)間差,是與時(shí)間計(jì)量的不同單位進(jìn)制造成的特殊時(shí)間差。時(shí)間點(diǎn)PartTwo02財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)間點(diǎn)時(shí)間點(diǎn)(Datetimes)問(wèn)題,Pandas提供Timestamp、DatetimeIndex、datetime64[ns]3種數(shù)據(jù)類(lèi)型。Timestamp對(duì)象是時(shí)間點(diǎn)元素類(lèi)型,表示確切的一個(gè)時(shí)間點(diǎn);由Timestamp對(duì)象組成的序列是DatetimeIndex對(duì)象;DatetimeIndex對(duì)象可以作為Pandans的一個(gè)Series或者DataFrame的一列,數(shù)據(jù)類(lèi)型為datetime64[ns]。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Timestamp的構(gòu)造與屬性Pandas提供Timestamp(時(shí)間戳)類(lèi)構(gòu)造時(shí)間戳對(duì)象。單個(gè)時(shí)間戳的生成利用pd.Timestamp()實(shí)現(xiàn)Timestamp由date(日期)和time(時(shí)間)組成;其中日期又由year、month和day組成;時(shí)間由hour、minute和second組成。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Datetime序列一組時(shí)間戳可以組成時(shí)間序列DatetimeIndex。通過(guò)to_datetime()和date_range()函數(shù)生成時(shí)間序列,即把時(shí)間戳格式的對(duì)象轉(zhuǎn)換成為datetime64[ns]類(lèi)型的時(shí)間序列range()和np.arange()函數(shù),pd.date_range()是一種生成連續(xù)間隔時(shí)間的一種方法語(yǔ)法格式:財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)序類(lèi)型dt對(duì)象Pandas在時(shí)序類(lèi)型的序列上定義了dt對(duì)象來(lái)完成時(shí)間序列的相關(guān)操作。這些操作可以大致分為3類(lèi):dt屬性,時(shí)間戳判定,取整操作。1)dt屬性dt對(duì)象時(shí)間分量值屬性包括:date,time,year,month,day,hour,minute,second,microsecond,nanosecond,dayofweek,dayofyear,weekofyear,daysinmonth,quarter等2)時(shí)間戳判定dt對(duì)象時(shí)間戳判定包括主要用于測(cè)試是否為月/季/年的第一天或者最后一天等,如is_leap_year,is_month_end,is_month_start,is_quarter_end,is_quarter_start,is_year_end,is_year_start等3)dt取整操作dt取整操作包含round(),ceil(),floor()函數(shù),他們的公共參數(shù)為freq,常用的值包括:H(小時(shí)),min(分鐘),S(秒),即完成時(shí)間點(diǎn)的不同方式取整。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析dt索引和切片財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析dt索引和切片時(shí)間差PartThere03財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)間差兩個(gè)時(shí)間戳(Timestamp)做差就得到了時(shí)間差(Timedeltas),Pandas中利用Timedelta對(duì)象來(lái)表示。類(lèi)似于DatatimeIndex,一系列的時(shí)間差就組成TimedeltaIndex,而TimedeltaIndex置于DataFrame或Series中,其類(lèi)型為timedelta64[ns]。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析創(chuàng)建Timedelta對(duì)象時(shí)間差可以理解為兩個(gè)時(shí)間戳的差,這里也可以通過(guò)pd.Timedelta()來(lái)構(gòu)造pd.Timestamp('2020010208:00:00')-pd.Timestamp('2020010107:35:00')pd.Timedelta(days=1,minutes=25)#需要注意是minutes,不是minute。或pd.Timedelta('1days25minutes')#字符串生成財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Timedelta序列對(duì)于時(shí)間差序列的生成,需要pd.to_timedelta()方法,其類(lèi)型為timedelta64[ns],示例代碼如下。td1=pd.date_range('2023-1-1','2023-3-1',periods=10)td2=td1+pd.Timedelta(days=1,minutes=45)*np.random.randint(10,size=10)ts=pd.to_timedelta(pd.Series(td2-td1))時(shí)間差序列也可以用timedelta_range()方法,參數(shù)與date_range()類(lèi)似,示例代碼如下。pd.timedelta_range('1m','1000m',freq='1h')pd.timedelta_range('0h','1000h',periods=9)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)間差dt對(duì)象對(duì)于Timedelta序列,同樣也定義了dt對(duì)象,接上例代碼。td_dt=(pd.Series(td2-td1)).dtTimedelta的dt對(duì)象定義了的屬性包括days,seconds,mircroseconds,nanoseconds等,與DatatimeIndex的dt對(duì)象類(lèi)似。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Timedelta的運(yùn)算時(shí)間點(diǎn)是定距類(lèi)型數(shù)據(jù),但是時(shí)間差卻是比例類(lèi)型數(shù)據(jù),可以進(jìn)行加、減、乘、除運(yùn)算都有意義。時(shí)間偏置PartFour04財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Offset對(duì)象Offset對(duì)象通過(guò)pd.offsets定義。當(dāng)使用加法(+)運(yùn)算時(shí)獲取離其最近的下一個(gè)日期,當(dāng)使用減法(-)運(yùn)算時(shí)獲取離其最近的上一個(gè)日期。[in]pd.Timestamp('20231006')+pd.offsets.WeekOfMonth(week=0,weekday=0)[out]Timestamp('2023-11-0600:00:00')[in]
pd.Timestamp('20231001')-pd.offsets.WeekOfMonth(week=0,weekday=0)[out]Timestamp('2023-09-0400:00:00')財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析偏置字符串pd.date_range()函數(shù)可以生成連續(xù)的日期時(shí)間序列語(yǔ)法格式:pd.date_range(start=None,end=None,periods=None,freq=None,tz=None,normalize=False,name=None,inclusive='both',*,unit=None,**kwargs)式中freq取值可用Offset對(duì)象,稱(chēng)為頻率字符串,是
DateOffset
對(duì)象及其子類(lèi)。窗口函數(shù)PartFive05財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析窗口函數(shù)窗口函數(shù)可以為每行數(shù)據(jù)進(jìn)行一次計(jì)算,因?yàn)榇翱诤瘮?shù)指定了數(shù)據(jù)窗口大小,可以在這個(gè)滑動(dòng)窗口里進(jìn)行計(jì)算并返回一個(gè)值。聚合函數(shù)只返回一行或?qū)Ψ纸M下的所有數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析滑動(dòng)窗口函數(shù)窗口函數(shù)就是一個(gè)可以在滑動(dòng)窗口實(shí)現(xiàn)各種統(tǒng)計(jì)操作的函數(shù)。一個(gè)滑動(dòng)窗口是一個(gè)移動(dòng)變化的小區(qū)間,所以窗口函數(shù)可以在不斷變化的小區(qū)間里實(shí)現(xiàn)各種復(fù)雜的統(tǒng)計(jì)分析。Pandasrolling()函數(shù)的語(yǔ)法格式:財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)序的滑動(dòng)窗口所謂時(shí)序的滑窗函數(shù),即把滑動(dòng)窗口用freq關(guān)鍵詞代替。將偏移量傳遞給rolling()函數(shù),并使其根據(jù)傳遞的時(shí)間窗口生成可變大小的窗口。函數(shù)作用于每個(gè)時(shí)間點(diǎn),以及偏移量的時(shí)間增量?jī)?nèi)出現(xiàn)的所有先前值。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析時(shí)序的擴(kuò)張窗口擴(kuò)張窗口又稱(chēng)累計(jì)窗口,可以理解為一個(gè)動(dòng)態(tài)長(zhǎng)度的窗口,其窗口的大小就是從序列開(kāi)始處到具體操作的對(duì)應(yīng)位置,其使用的聚合函數(shù)會(huì)作用于這些逐步擴(kuò)張的窗口上。【Python財(cái)務(wù)數(shù)據(jù)分析】——財(cái)務(wù)數(shù)據(jù)的時(shí)間序列數(shù)據(jù)分析PartPractice05財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析【小結(jié)】本節(jié)主要介紹了時(shí)間序列的特殊數(shù)據(jù)處理。時(shí)間序列是財(cái)經(jīng)數(shù)據(jù)分析的重要內(nèi)容,因此Pandas對(duì)其有較豐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋委托管理合同
- 計(jì)算機(jī)網(wǎng)絡(luò)的基本拓?fù)浣Y(jié)構(gòu)試題及答案
- 高品質(zhì)住宅裝修施工及驗(yàn)收合同
- 人力資源管理理論及應(yīng)用測(cè)試題
- 能源行業(yè)數(shù)據(jù)分析試題
- 研究2025年計(jì)算機(jī)三級(jí)數(shù)據(jù)庫(kù)常考試題
- 商業(yè)活動(dòng)場(chǎng)地租賃合同書(shū)及補(bǔ)充條款
- 計(jì)算機(jī)二級(jí)MySQL內(nèi)容概覽與解析試題及答案
- 行政管理理論必考試題及答案詳解
- 行政組織決策的重要因素試題及答案
- 青年創(chuàng)新意識(shí)的培養(yǎng)試題及答案
- 《2025年CSCO腎癌診療指南》解讀課件
- 村干部測(cè)試試題及答案
- 《新能源汽車(chē)發(fā)展歷程》課件
- 靜脈治療考試試題及答案
- 預(yù)收貨款協(xié)議合同
- 2024初級(jí)注冊(cè)安全工程師筆試模擬題帶答案
- 北京開(kāi)放大學(xué)2025年《企業(yè)統(tǒng)計(jì)》形考作業(yè)3答案
- 2025年濱州國(guó)有資本投資運(yùn)營(yíng)集團(tuán)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 2025年大數(shù)據(jù)分析師職業(yè)技能測(cè)試卷:數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與數(shù)據(jù)建模實(shí)戰(zhàn)試題匯編
- 2025屆福州教育學(xué)院附屬中學(xué)高考語(yǔ)文四模試卷含解析
評(píng)論
0/150
提交評(píng)論