




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第84講成對數據的統計分析
知識梳理
知識點一、變量間的相關關系
1、變量之間的相關關系
當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫
相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非
常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其
中的規律,對它們的關系作出判斷.
注意:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一
種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是
伴隨關系.
2、散點圖
將樣本中的幾個數據點(%,%)?=1,2,…,ri)描在平面直角坐標系中,所得圖形叫做散點
圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.
(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關
關系,我們將它稱為正相關,如圖(1)所示;
(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關
關系,我們將它稱為負相關,如圖(2)所示.
(1)(2)
3、相關系數
若相應于變量x的取值玉,變量y的觀測值為則變量x與y的相關系數
〃__n___
X(%一%)(%-v)X%%-nxy
J7--------=,一二,通常用r來衡量x與y之間的線
/n_n_|n_In_
(%_x)2次(y-y)2JXx:-"X9y'i-ny9
Vi=li=lVi=lVi=\
性關系的強弱,的范圍為一1<〃<1.
(1)當廠>0時,表示兩個變量正相關;當廠<0時,表示兩個變量負相關.
(2)越接近1,表示兩個變量的線性相關性越強;”越接近0,表示兩個變量間幾
乎不存在線性相關關系.當卜|=1時,所有數據點都在一條直線上.
(3)通常當M>0—75時,認為兩個變量具有很強的線性相關關系.
知識點二、線性回歸
1、線性回歸
線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.
對于一組具有線性相關關系的數據(xi,%),(尤2,>2),…,(用,如),其回歸方程y=bx+a
的求法為
〃__n__
-x)(y,-y)-nxy
b=-----------二號---------
4=14=1
a=y—bx
_1n—1n——
其中,x=—,Yxi,y=-y\yi,(x,y)稱為樣本點的中心.
n,=in,=i
2、殘差分析
對于預報變量y,通過觀測得到的數據稱為觀測值%,通過回歸方程得到的y稱為預
測值,觀測值減去預測值等于殘差,自稱為相應于點(4y)的殘差,即有自=%-夕,.殘
差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始
數據中是否存在可疑數據等,這方面工作稱為殘差分析.
(1)殘差圖
通過殘差分析,殘差點(占在)比較均勻地落在水平的帶狀區域中,說明選用的模型比較
合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.
(2)通過殘差平方和。=分析,如果殘差平方和越小,則說明選用的模型
1=1
的擬合效果越好;反之,不合適.
(3)相關指數
用相關指數來刻畫回歸的效果,其計算公式是:片=1一上」_L.
Z=1
K越接近于1,說明殘差的平方和越小,也表示回歸的效果越好.
知識點三、非線性回歸
解答非線性擬合問題,要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換
元將陌生的非線性回歸方程化歸轉化為我們熟悉的線性回歸方程.
求出樣本數據換元后的值,然后根據線性回歸方程的計算方法計算變換后的線性回歸
方程系數,還原后即可求出非線性回歸方程,再利用回歸方程進行預報預測,注意計算要
細心,避免計算錯誤.
1、建立非線性回歸模型的基本步驟:
(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;
(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非
線性關系);
(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用
反比例函數、二次函數、指數函數、對數函數、幕函數模型等);
(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;
(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;
(6)消去新元,得到非線性回歸方程;
(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型
是否合適等.
知識點四、獨立性檢驗
1、分類變量和列聯表
(1)分類變量:
變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.
(2)列聯表:
①定義:列出的兩個分類變量的頻數表稱為列聯表.
②2x2列聯表.
一般地,假設有兩個分類變量X和匕它們的取值分別為{不,x?}和{%,為},其樣
本頻數列聯表(稱為2x2列聯表)為
為總計
aba+b
x2cdc+d
總計a+cb+dn=a+b+c+d
從2x2列表中,依據‘一與工的值可直觀得出結論:兩個變量是否有關系.
a+bc+d
2、等高條形圖
(1)等高條形圖和表格相比,更能直觀地反映出兩個分類變量間是否相互影響,常用等
高條形圖表示列聯表數據的頻率特征.
(2)觀察等高條形圖發現,-與工相差很大,就判斷兩個分類變量之間有關系.
a+bc+d
3、獨立性檢驗
計算隨機變量/丁+以胃之);…)利用/的取值推斷分類變量X和Y是否
獨立的方法稱為z2獨立性檢驗.
a0.100.050.0100.0050.001
兀2.7063.8416.6357.87910.828
【解題方法總結】
常見的非線性回歸模型
(1)指數函數型y=c/(a>0且0工1,c>0)
兩邊取自然對數,lny=ln?即Iny=lnc+xlna,
令|y,Iny,原方程變為y=]nc+x,lna,然后按線性回歸模型求出Ina,Inc.
[x=x
(2)對數函數型y=〃lnx+a
令,原方程變為y'=6x'+“,然后按線性回歸模型求出b,a.
x=lnx
(3)幕函數型y二以〃
兩邊取常用對數,Igy=坨體〃),即Igy=〃lgx+lga,
令0,=產>,原方程變為y'=7zx'+lga,然后按線性回歸模型求出”,Iga.
[x=Igx
(4)二次函數型y=汝2+。
令廠,=[,原方程變為了=法'+。,然后按線性回歸模型求出匕,
a.
\x=x
(5)反比例函數型y=a+2b型
x
令,1,原方程變為V=Zu'+Q,然后按線性回歸模型求出b,a.
x=-
x
必考題型全歸納
題型一:變量間的相關關系
例L(2024?河北?高三校聯考期末)下列四幅殘差分析圖中,與一元線性回歸模型擬合精
度最高的是()
「殘差十殘差
40040
20020
A.0B.
0
2.4,6.8101214觀測24.6810-1214觀測
-200-20
時間,-時間
-400-40
「殘差「殘差
10004
5002
cD.
J00
2-4.6B.10L214觀測4.68101214^i]
-500-2???時間
-1000-4
例2.(2024?天津薊州?高三校考開學考試)對兩個變量x,y進行線性相關檢驗,得線性相
關系數6=0.8995,對兩個變量“,v進行線性相關檢驗,得線性相關系數4=49568,
則下列判斷正確的是()
A.變量x與y正相關,變量〃與v負相關,變量x與y的線性相關性較強
B.變量x與y負相關,變量〃與V正相關,變量X與〉的線性相關性較強
C.變量x與y正相關,變量a與v負相關,變量a與v的線性相關性較強
D.變量x與y負相關,變量a與v正相關,變量比與v的線性相關性較強
例3.(2024?寧夏吳忠?高三鹽池高級中學校考階段練習)在如圖所示的散點圖中,若去掉
點尸,則下列說法正確的是()
??
..P
*
------------------------------------>
OX
A.樣本相關系數「變大
B.變量x與變量》的相關程度變弱
C.變量x與變量y呈正相關
D.變量X與變量,的相關程度變強
變式1.(2024.四川成都.高三統考階段練習)已知建筑地基沉降預測對于保證施工安全,
實現信息化監控有著重要意義.某工程師建立了四個函數模型來模擬建筑地基沉降隨時間
的變化趨勢,并用相關指數、誤差平方和、均方根值三個指標來衡量擬合效果.相關指數
越接近1表明模型的擬合效果越好,誤差平方和越小表明誤差越小,均方根值越小越
好.依此判斷下面指標對應的模型擬合效果最好的是()
A.
相關指數誤差平方和均方根值
0.9498.4910.499
B.
相關指數誤差平方和均方根值
0.9334.1790.436
C.
相關指數誤差平方和均方根值
0.9971.7010.141
D.
相關指數誤差平方和均方根值
0.9972.8990.326
變式2.(2024?高三課時練習)甲、乙、丙、丁四位同學各自對,A,8兩變量的線性相關
性做試驗,并用回歸分析方法分別求得相關系數r與殘差平方和根如下表:
甲乙丙T
r0.820.780.690.85
m106115124103
則能體現4B兩變量有更強的線性相關性的是()
A.甲B.乙C.丙D.丁
變式3.(2024.河北石家莊.統考三模)觀察下列四幅殘差圖,滿足一元線性回歸模型中對
隨機誤差的假定的是()
“殘差
100-
-100-----1-----1-----1-----1-----1---->
020406080100觀測時間
B.
力殘差
4■
2
-40100200300400500600700800900IODO*
觀測時間
£殘差
1500
1000
500
C.0
-500
-1000
-1500
020406080100觀測時間
。殘差
200
150
100
50
-50
-100
-150
?2001...........................................——>
0102030405060708090100觀測時間
變式4.(2024?全國?高三專題練習)甲、乙、丙、丁四位同學分別對一組變量進行線性相
關試驗,并分別計算出相關系數小則線性相關程度最高的是()
甲乙丙T
r0.870.910.580.83
A.甲B.乙C.丙D.T
變式5.(2024.全國?高三專題練習)給出下列有關線性回歸分析的四個命題:
①線性回歸直線未必過樣本數據點的中心(食歹);
②回歸直線就是散點圖中經過樣本數據點最多的那條直線;
③當相關系數廠>0時,兩個變量正相關;
④如果兩個變量的相關性越強,則相關系數r就越接近于1.
其中真命題的個數為()
A.1B.2C.3D.4
【解題方法總結】
判定兩個變量相關性的方法
(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到
右下角,兩個變量負相關.
(2)樣本相關系數:當r>0時,正相關;當r<0時,負相關;川越接近于1,相關性越
強.
(3)經驗回歸方程:當石>0時,正相關;當,<0時,負相關.
題型二:一元線性回歸模型
例4.(2024?天津薊州?高三校考開學考試)為研究某種細菌在特定環境下,隨時間變化的
繁殖情況,得到如下實驗數據:
天數x(天)3456
繁殖個數y(千個)2.5344.5
由最小二乘法得y與x的線性回歸方程為y=Q7x+a,則當x=7時,繁殖個數y的預測值
為()
A.4.9B.5.25C.5.95D.6.15
例5.(2024?湖南長沙?高三長郡中學校聯考階段練習)某社區為了豐富退休人員的業余文
化生活,自2018年以來,始終堅持開展“悅讀小屋讀書活動”.下表是對2018年以來近5年
該社區退休人員的年人均借閱量的數據統計:
年份20182019202020212022
年份代碼X12345
年人均借閱量y(冊)%%162228
(參考數據:£*=90)通過分析散點圖的特征后,年人均借閱量》關于年份代碼x的回
1=1
歸分析模型為y=5x+機,則2024年的年人均借閱量約為()
A.31B.32C.33D.34
例6.(2024?遼寧?遼寧實驗中學校考模擬預測)已知x,y的對應值如下表所示:
X02468
y1m+l2m+l3m+311
若y與x線性相關,且回歸直線方程為y=L6x+0.6,則()
A.2B.3C.4D.5
變式6.(2024?廣西南寧?南寧二中校聯考模擬預測)某單位在當地定點幫扶某村種植一種
草莓,并把這種原本露天種植的草莓搬到了大棚里,獲得了很好的經濟效益.根據資料顯
示,產出的草莓的箱數無(單位:箱)與成本y(單位:千元)的關系如下:
X102030406080
y%%為%%%
(1)根據散點圖可以認為x與y之間存在線性相關關系,請用最小二乘法求出線性回歸方程
y=bx+a(a,g用分數表示)
(2)某農戶種植的草莓主要以300元/箱的價格給當地大型商超供貨,多余的草莓全部以200
元/箱的價格銷售給當地小商販.據統計,往年1月份當地大型商超草莓的需求量為50
箱、100箱、150箱、200箱的概率分別為木,I-根據回歸方程以及往年商超草
莓的需求情況進行預測,求今年1月份農戶草莓的種植量為200箱時所獲得的利潤情
況.(最后結果精確到個位)
66
附:Z(x,-可(%-刃=790,2%=54,在線性回歸直線方程£=嬴+&中
Z=11=1
,ta-丁)(y-歹)
b=--------,a=y-bx.
Z=1
變式7.(2024.江西?高三統考開學考試)某新能源汽車銷售部對今年1月至7月的銷售量
進行統計與分析,因不慎丟失一些數據,現整理出如下統計表與一些分析數據:
月份1月2月3月4月5月6月7月
月份代號X1234567
銷售量y(單位:萬輛)15.6mns37.739.644.5
其中歹=31.2.
⑴若根,“,5成遞增的等差數列,求從7個月的銷售量中任取1個,月銷售量不高于27
萬輛的概率;
7
⑵若Z5-才=670.48,X與〉的樣本相關系數r=0.99,求V關于x的線性回歸方程
Z=1
y=bx+a,并預測今年8月份的銷售量(3精確到0.1).
-磯y-y)
附:相關系數廠=I「〃線性回歸方程5>=嬴+0中斜率和截距的最小二
歸"4(…『
V1=1i=i
乘估計公式分別為5=a=y—bx.
參考數據:2.65,,670.48125.89.
變式8.(2024?四川成都?高三石室中學校考開學考試)已知某綠豆新品種發芽的適宜溫度
在6℃~22℃之間,一農學實驗室研究人員為研究溫度無(C)與綠豆新品種發芽數y
(顆)之間的關系,每組選取了成熟種子50顆,分別在對應的8℃~14℃的溫度環境下進
行實驗,得到如下散點圖:
35
30
25
20
15
10
5
°789101112131415x
_7__7_
其中y=24,X(%-x)(y-y)=70,X"7)2=176.
i=l?=1
(1)運用相關系數進行分析說明,是否可以用線性回歸模型擬合y與x的關系?
(2)求出y關于X的線性回歸方程,=院+機并預測在19℃的溫度下,種子的發芽的顆數.
參考公式:相關系數」=I「_)_,回歸直線方程恒%+3其中
(苦-
Vi=li=l
n__
X(x,-x)(%-y)___
b=-------z——,B=7-/.參考數據:V77-8.77.
2(±-X)2
4=1
變式9.(2024.安徽亳州.蒙城第一中學校聯考模擬預測)為調查某地區植被覆蓋面積無(單
位:公頃)和野生動物數量y的關系,某研究小組將該地區等面積花分為400個區塊,從
中隨機抽取40個區塊,得到樣本數據(%,%)(i=l,2,,40),部分數據如下:
X2.73.63.23.9
y50.663.752.154.3
40404040
經計算得:2>=16。,?=2400,工(七-元『=160,^(x,.-x)(y;-y)=1280.
Z=1Z=1Z=1Z=1
(1)利用最小二乘估計建立y關于x的線性回歸方程;
(2)該小組又利用這組數據建立了x關于y的線性回歸方程,并把這兩條擬合直線畫在同一
坐標系xOy下,橫坐標無,縱坐標y的意義與植被覆蓋面積尤和野生動物數量y一致.設前
者與后者的斜率分別為K,k2,比較左,心的大小關系,并證明.
附:y關于尤的回歸方程y=a+灰中,斜率和截距的最小二乘估計公式分別為:
n__
Y.x.y.-nx-y^x^-nxy
5———,屋“院,i=l
,X;-nx
i=l
【解題方法總結】
求經驗回歸方程的步驟
甘算出工,歹,或£(x,-x)(y,-y),!
金(箝-三尸的值
__________________________________J
(步驟二H利用公式計算系數£,3
0二二二二二二二二二
題型三:非線性回歸
例7.(2024?湖南?校聯考模擬預測)若需要刻畫預報變量卬和解釋變量X的相關關系,且
從已知數據中知道預報變量w隨著解釋變量x的增大而減小,并且隨著解釋變量x的增
大,預報變量卬大致趨于一個確定的值,為擬合卬和x之間的關系,應使用以下回歸方程
中的(6>0,e為自然對數的底數)()
A.w-bx+aB.w--b]nx+aC.w=-bs/x+aD.w=be~x+a
例8.(2024?全國?高三專題練習)云計算是信息技術發展的集中體現,近年來,我國云計
算市場規模持續增長.己知某科技公司2018年至2022年云計算市場規模數據,且市場規模
y與年份代碼x的關系可以用模型y=(其中e為自然對數的底數)擬合,設
z=lny,得到數據統計表如下:
年份2018年2019年2020年2021年2022年
年份代碼X12345
云計算市場規模y/千萬元7.4112036.666.7
z=\ny22.433.64
由上表可得經驗回歸方程z=0.52尤+a,則2025年該科技公司云計算市場規模y的估計值
為()
A.e508B.e5-6C.e612D.e6-5
例9.(多選題)(2024?福建廈門?廈門一中校考三模)在對具有相關關系的兩個變量進行回
歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引
入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同
學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則
其中可以根據上述方法進行回歸分析的模型有()
x+c.
2
A.y=cxx+c2xB.y=
x+c2
D.y=
C.y=cr+ln(x+c2)
變式10.(2024?全國?高三專題練習)已知變量的關系可以用模型y=在""擬合,設
z=lny,其變換后得到一組數據如下.由上表可得線性回歸方程z=3x+a,貝必=()
X12345
z2451014
23
A.JB.rC.eD.e
變式IL(2024?全國?高三專題練習)某校課外學習小組研究某作物種子的發芽率〉和溫度
x(單位:C)的關系,由實驗數據得到如圖所示的散點圖.由此散點圖判斷,最適宜作為
A.y=a+bxB.y=a+bx1(b>0i)
C.y=a+bexD.y=a+b\nx
變式12.(2024?全國?高二專題練習)蘭溪楊梅從5月15日起開始陸續上市,據調查統
計,得到楊梅銷售價格(單位:0元/千克)與上市時間/(單位:天)的數據如下表所
z5:
時間〃(單位:天)102070
銷售價格Q(單位:元/千克)10050100
根據上表數據,從下列函數模型中選取一個描述楊梅銷售價格。與上市時間t的變化關
系:Q=at+》,Q=a〃+"+c,Q=a-Z/,Q=a-log/.利用你選取的函數模型,在以下四個日
期中,楊梅銷售價格最低的日期為()
A.6月5日B.6月15日C.6月25日D.7月5日
變式13.(2024?四川瀘州?高三四川省瀘縣第四中學校考開學考試)抗體藥物的研發是生物
技術制藥領域的一個重要組成部分,抗體藥物的攝入量與體內抗體數量的關系成為研究抗
體藥物的一個重要方面.某研究團隊收集了10組抗體藥物的攝入量與體內抗體數量的數
據,并對這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值,抗體藥物
攝入量為x(單位:mg),體內抗體數量為y(單位:AU/mL).
10101010
2a
Z=IZ=1i=li=i
29.2121634.4
九
12-
10-
8-
6-
4-
2-
62468101214161820222426%
(1)根據經驗,我們選擇、=。/作為體內抗體數量y關于抗體藥物攝入量尤的回歸方程,將
y=cx"兩邊取對數,得lny=lnc+dlnx,可以看出也彳與Iny具有線性相關關系,試根據
參考數據建立》關于x的回歸方程,并預測抗體藥物攝入量為25mg時,體內抗體數量》的
值;
(2)經技術改造后,該抗體藥物的有效率z大幅提高,經試驗統計得z服從正態分布
N:(0.48,0.032),那這種抗體藥物的有效率z超過0.54的概率約為多少?
附:①對于一組數據(4M(i=l,2,L/0),其回歸直線>=例+。的斜率和截距的最小二乘
__
z%匕一〃〃口
估計分別為萬二三------,a=v-M
-nil
i=l
②若隨機變量z~N(〃,),則有尸(〃-<Z<〃+。)Q0.6826,
PQi—2b<Z<//+2cr)?0.9544,P(ju—3cr<Zv〃+3b)?0.9974;
③取e=2.7.
變式14.(2024?江西贛州?高三校考階段練習)為了研究某種細菌隨天數x變化的繁殖個數
⑴在圖中作出繁殖個數y關于天數x變化的散點圖,并由散點圖判斷y=5x+&("花為常
數)與g=c盧/(qq為常數,且cpOqwO)哪一個適宜作為繁殖個數y關于天數x變
化的回歸方程類型?(給出判斷即可,不必說明理由)
(2)對于非線性回歸方程勺=°盧/為常數,且6>0,°2W0),令z=lny,可以得到繁
殖個數的對數z關于天數尤具有線性關系及一些統計量的值.
6°66
£(七一可^(x,.-x)(z,.-z)
XyZ-可(y-刃
i=li=li=l
3.5062.833.5317.50596.5712.09
(i)證明:“對于非緝隹回歸方程亍=/W,令z=lny,可以得到繁殖個數的對數z關于
天數x具有線性關系(即2=歷+6,/,6為常數)”;
(ii)根據(i)的判斷結果及表中數據,建立y關于x的回歸方程(系數保留2位小
數).
附:對于一組數據(%,片),(4,嶺),,(““,乙),其回歸直線方程。=氏+&的斜率和截距的
£(%-萬)(匕-")
最小二乘估計分別為B=J-------------,a=v-pu.
i=l
變式15.(2024?重慶沙坪壩?高三重慶八中校考階段練習)在正常生產條件下,根據經驗,
可以認為化肥的有效利用率近似服從正態分布N(0.54,0.022),而化肥施肥量因農作物的種
類不同每畝也存在差異.
⑴假設生產條件正常,記X表示化肥的有效利用率,求P(XN0.56);
(2)課題組為研究每畝化肥施用量與某農作物畝產量之間的關系,收集了10組數據,并對
這些數據作了初步處理,得到了如圖所示的散點圖及一些統計量的值.其中每畝化肥施用量
為x(單位:公斤),糧食畝產量為丁(單位:百公斤)
川
10-
8
6
4
2
1?1?????1?1?1?1
O24681012141618202224262830x
參考數據:
1010101010101010
X%%儲ZxExD
Z=1Z=11=1i=\i=l1=1i=li=l
65091.552.51478.630.5151546.5
tj=Inxt,zi=Iny;(z=1,2,…,10).
⑴根據散點圖判斷,法與尸c/,哪一個適宜作為該農作物畝產量>關于每畝化
肥施用量x的回歸方程(給出判斷即可,不必說明理由);
(ii)根據(i)的判斷結果及表中數據,建立V關于x的回歸方程;并預測每畝化肥施用
量為27公斤時,糧食畝產量V的值.(e合2.7)
附:①對于一組數據的,匕)H=1,2,3,…,?),其回歸直線/=£"+&的斜率和截距的
-riuv
最小二乘估計分別為6=W---------,&=心
-nu2
Z=1
②若隨機變量XN("),貝—b<Xv〃+b)p0.6827,
—2b<X<ju+2b)?0.9545.
變式16.(2024.重慶.高三校聯考開學考試)某公司為了解年研發資金投入量x(單位:億
元)對年銷售額y(單位:億元)的影響.對公司近12年的年研發資金投入量羽?和年銷售額
yi的數據,進行了對比分析,建立了兩個模型:①>=&+//,②R=e疝",其中。,}
九f均為常數,e為自然對數的底數,并得到一些統計量的值.令
%=啟、=lny,(z,=l,2,3,…,12),經計算得如下數據:
12c*…)2
X£(XT)uV
Z=1i=l
20667724604.20
七ITZ(蒼-x)(匕-v)
Z=1Z=1
312502153.0814
(1)請從相關系數的角度,分析哪一個模型擬合程度更好?
(2)(i)根據分析及表中數據,建立了關于x的回歸方程;
(ii)若下一年銷售額y需達到90億元,預測下一年的研發資金投入量尤是多少億元?
附:①相關系數丫=I「1t,回歸直$=4+%中公式分別為
Jxa--)2X(y.-y)2
Vi=li=l
nn__
^(x;-x)(j,.-y)£x^-nx-y
②參考數據:308=4x77,790?9.4868,e44998?90.
變式17.(2024?江蘇鎮江?江蘇省鎮江中學校考三模)經觀測,長江中某魚類的產卵數V與
溫度x有關,現將收集到的溫度占和產卵數%1=1,2,,10)的10組觀測數據作了初步處
理,得到如圖的散點圖及一些統計量表.
1010101010
口z%£(占-可
Z=11=1Z=1i=\Z=1
36054.5136044384
10c101010
Z(—)一目(—)(y-歹)£(&-元)(%-歹)
Z=1i=\i=lZ=1
3588326430
[10
表中4=6,z,=ln%,7=6Zz,.
1Uj=i
九
350-
300-
250-
200-
150-
100-
50-
1tl?????.
°202224262830323436x
(1)根據散點圖判斷,y=a+bx,y=n+my[x與y=qe。"哪一個適宜作為V與x之間的回歸方
程模型并求出》關于x回歸方程;(給出判斷即可,不必說明理由)
(2)某興趣小組抽取兩批魚卵,已知第一批中共有6個魚卵,其中“死卵”有2個;第二批中
共有8個魚卵,其中“死卵”有3個.現隨機挑選一批,然后從該批次中隨機取出2個魚
卵,求取出“死卵”個數的分布列及數學期望.
附:對于一組數據(%,%),(%,匕),(%/“),其回歸直線v=e+例的斜率和截距的最小二
'(%-江)(匕一#)
乘估計分別為夕=J=1------------,a=v-jBu.
L/—\2
Z=1
變式18.(2024?廣西南寧?南寧三中校考一模)數據顯示中國車載音樂已步入快速發展期,
隨著車載音樂的商業化模式進一步完善,市場將持續擴大,下表為2018—2022年中國車載
音樂市場規模(單位:十億元),其中年份2018—2022對應的代碼分別為1-5.
年份代碼x
車載音樂市場規模了2.83.97.312.017.0
(1)由上表數據知,可用指數函數模型、=。力,擬合>與x的關系,請建立y關于x的回歸方
程;
(2)根據上述數據求得y關于X的回歸方程后,預測2024年的中國車載音樂市場規模.
參考數據:
5
e°$24e°4727
V1.6
i=l
1.9433.821.71.626.84
_I5
其中匕=In%,v=-2,v,.
3z=i
參考公式:對于一組數據(%,匕),(%,%),L,(〃/“)其回歸直線y=a+m,的斜率和截
-nU'V
距的最小二乘法估計公式分別為P=――
_2,a=v-/3u?
-nu
Z=1
變式19.(2024.安徽合肥?合肥市第八中學校考模擬預測)當前移動網絡已融入社會生活的
方方面面,深刻改變了人們的溝通、交流乃至整個生活方式4G網絡雖然解決了人與人隨時
隨地通信的問題,但隨著移動互聯網快速發展,其已難以滿足未來移動數據流量暴漲的需
求,而5G作為一種新型移動通信網絡,不但可以解決人與人的通信問題,而且還可以為
用戶提供增強現實、虛擬現實、超高清(3。)視頻等更加身臨其境的極致業務體驗,更重要
的是還可以解決人與物、物與物的通信問題,從而滿足移動醫療、車聯網、智能家居、工業控
制、環境監測等物聯網應用需求,為更好的滿足消費者對5G網絡的需求,中國電信在某地
區推出了六款不同價位的流量套餐,每款套餐的月資費尤(單位:元)與購買人數y(單
位:萬人)的數據如下表:
套餐ABCDEF
月資費X(元)384858687888
購買人數y(萬人)16.818.820.722.424.025.5
對數據作初步的處理,相關統計量的值如下表:
6666
i=li=li=li=l
75.324.618.3101.4
其中匕=1叫g=lny,且繪圖發現,散點(”,外)(區注6)集中在一條直線附近.
(1)根據所給數據,求出y關于x的回歸方程;
⑵已知流量套餐受關注度通過指標T(x)=土受來測定,當T(x”俘,翼時相應的流量
套餐受大眾的歡迎程度更高,被指定為“主打套餐”.現有一家四口從這六款套餐中,購買不
同的四款各自使用.記四人中使用“主打套督”的人數為X,求隨機變量X的分布列和期望.
附:對于一組數據(匕⑼?…,(匕,④),其回歸方程0=加+口的斜率和截距的最小
n
Z(匕-"),(啰i一5)
二乘估計值分別為另=—............,a=ai-bv
石(匕-于
Z=1
【解題方法總結】
換元法變成一元線性回歸模型
題型四:列聯表與獨立性檢驗
例10.(2024.廣東佛山.華南師大附中南海實驗高中校考模擬預測)四川省將從2022年秋
季入學的高一年級學生開始實行高考綜合改革,高考采用“3+1+2”模式,其中“1”為首選科
目,即物理與歷史二選一.某校為了解學生的首選意愿,對部分高一學生進行了抽樣調查,
制作出如下兩個等高條形圖,根據條形圖信息,下列結論正確的是()
聞2
A.樣本中選擇物理意愿的男生人數少于選擇歷史意愿的女生人數
B.樣本中女生選擇歷史意愿的人數多于男生選擇歷史意愿的人數
C.樣本中選擇物理學科的人數較多
D.樣本中男生人數少于女生人數
例11.(2024?全國?高三專題練習)在新高考改革中,浙江省新高考實行的是7選3的3+3
模式,即語數外三門為必考科目,然后從物理、化學、生物、政治、歷史、地理、技術
(含信息技術和通用技術)7門課中選考3門.某校高二學生選課情況如下列聯表一和列聯
表二(單位:人)
選物理不選物理總計
男生340110450
女生140210350
總計480320800
表一
選生物不選生物總計
男生150300450
女生150200350
總計300500800
表二
試根據小概率值a=0.005的獨立性檢驗,分析物理和生物選課與性別是否有關()
2
|7/42n(ad-bc)7
PIT:Y----------------------n=a+b+c+d.a=P
(a+b)(c+d)(Q+C)(b+d)I
a0.150.100.050.0250.010.0050.001
Xa2.0722.7063.8415.0246.6357.87910.828
A.選物理與性別有關,選生物與性別有關
B.選物理與性別無關,選生物與性別有關
C.選物理與性別有關,選生物與性別無關
D.選物理與性別無關,選生物與性別無關
例12.(2024.全國?高三專題練習)通過隨機詢問相同數量的不同性別大學生在購買食物時
是否看營養說明,得知有士的男大學生“不看”,有:的女大學生“不看”,若有99%的把握
63
認為性別與是否看營養說明之間有關,則調查的總人數可能為()
A.150B.170C.240D.175
變式20.(2024?全國?高三專題練習)針對時下的“短視頻熱”,某高校團委對學生性別和喜
歡短視頻是否有關聯進行了一次調查,其中被調查的男生、女生人數均為5根(根€1<)人,
男生中喜歡短視頻的人數占男生人數的,4,女生中喜歡短視頻的人數占女生人數的3:零假
設為HQ:喜歡短視頻和性別相互獨立.若依據a=0.05的獨立性檢驗認為喜歡短視頻和性別
不獨立,則機的最小值為()
附:―取"/產打八附表
[a+b)[c+a)[a+c)[b+a)
a0.050.01
Xa3.8416.635
A.7B.8C.9D.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論