大數據挖掘技術練習(習題卷2)_第1頁
大數據挖掘技術練習(習題卷2)_第2頁
大數據挖掘技術練習(習題卷2)_第3頁
大數據挖掘技術練習(習題卷2)_第4頁
大數據挖掘技術練習(習題卷2)_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據挖掘技術練習大數據挖掘技術練習(習題卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據挖掘技術練習第1部分:單項選擇題,共51題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.感知器以一個()作為輸入,計算這些輸入的線性組合,然后如果結果大于某個閾值就輸出1,否則輸出-1A)實數B)線性組合C)實數值向量D)實例答案:C解析:[單選題]2.高斯樸素貝葉斯構造方法為()A)sklearn.naive_bayes.MultinomialNBB)sklearn.naive_bayes.BernoulliNBC)sklearn.naive_bayes.GaussianNBD)semi-naiveBayesclassifiers答案:C解析:[單選題]3.下列方法中,能夠用來設置代理服務器的是____。A)urlopenB)ProxyHandlerC)urldecodeD)Proxy答案:B解析:[單選題]4.對回歸問題和分類問題的評價最常用的指標是A)準確率B)召回率C)誤差D)方差答案:C解析:[單選題]5.下列Python庫或模塊中,支持正則表達式語法的是____。A)bs4B)lxmlC)reD)json答案:C解析:[單選題]6.個人信息保護影響評估報告和處理情況記錄應當至少保存()年。A)一B)十C)五D)三答案:D解析:[單選題]7.78.以下哪個聚類算法不屬于基于網格的聚類算法()。A)STINGB)WaveClusterC)MAFIAD)BIRCH答案:D解析:[單選題]8.所謂高維數據,指的是A)數據對象很多B)數據屬性很多C)以上都正確D)以上都錯誤答案:B解析:[單選題]9.delta法則的關鍵思想:使用()來搜索可能權向量的假設空間,以找到最佳擬合訓練樣例的權向量A)梯度下降B)聚類分析C)決策樹D)判別分析答案:A解析:[單選題]10.可用作數據挖掘分析中的關聯規則算法有A)Apriori算法、FP-Tree算法B)K均值法、SOM神經網絡C)決策樹、對數回歸、關聯模式D)RBF神經網絡、K均值法、決策樹答案:A解析:[單選題]11.在發生或者可能發生個人信息泄露、毀損、丟失的情況時,應當立即采取()措施,按照規定及時告知用戶并向有關主管部門報告。()A)彌補B)補救C)救援D)相關答案:B解析:[單選題]12.什么是KDD?()A)數據挖掘與知識發現B)領域知識發現C)文檔知識發現D)動態知識發現答案:A解析:[單選題]13.如何退出vi編輯器輸入模式?1按ESC;2鍵入:q(如果你沒有輸入任何當下)3或者鍵入:wq(如果你已經輸入當下)4按下Enter。A)1、3、2、4B)3、2、1、4C)2、1、3、4D)1、2、3、4答案:D解析:[單選題]14.LTE規劃仿真中的詳細規劃不涉及的是()A)業務分布B)覆蓋預測C)參數規劃D)容量仿真答案:A解析:[單選題]15.如對用戶的信令序列編碼成時間序列,則可以利用哪種算法可以進行具備故障區分能力的特征挖掘A)EMB)K-MeansC)CARTD)PrefixSpan答案:D解析:[單選題]16.以下關于OLAP的敘述中錯誤的是()A)一個多維數組可以表示為(維1,維2,…,維n)B)維的一個取值稱為該維的一個維成員C)OLAP是聯機分析處理D)OLAP是數據倉庫進行分析決策的基礎答案:A解析:[單選題]17.即時通信業務的XDR類型編碼是A)100B)101C)110D)113答案:C解析:[單選題]18.關于決策樹算法,以下的敘述錯誤的是A)決策樹修剪技術有預修剪和后修剪B)決策樹層數越多,預測結果準確性越高C)C5.0、CHAID、CART都屬于決策樹算法D)修剪技術是為了防止過擬合的問題答案:B解析:[單選題]19.設置hadoop啟動環境變量的文件是?A)core-site.xmlB)hdfs-site.xmlC)mapred-site.xmlD)hadoop-env.sh答案:D解析:[單選題]20.推薦系統為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于網站最熱賣商品、客戶所處城市、(),推測客戶將來可能的購買行為。A)客戶的朋友B)客戶的個人信息C)客戶的興趣愛好D)客戶過去的購買行為和購買記錄答案:D解析:[單選題]21.假設某屬性的最大值和最小值分別為8000和15000,要將其映射到[0,1],按照最小-最大規范化方法對屬性進行縮放,則12600將變換為:A)0.748B)0.767C)0.715D)0.725答案:B解析:[單選題]22.下面關于構建模型樹的說法中,錯誤的是()。A)如果當前結點t所關聯的數據集Dt中樣本個數小于給定閾值或者Dt中樣本的目標屬性取值的標準差小于給定閾值,則將該結點標記為葉子節點B)創建一個結點t,與結點t關聯的數據集記為DtC)在選擇分類屬性時,應選擇時SDR值最小的屬性D)SDR代表誤差的期望減少答案:C解析:[單選題]23.在一個表中有字段?專業?,要查找包含?信息?兩個字的記錄,正確的表達式是______。A)LEFT(專業,2)="信息"B)LIKE"%信息%"C)LIKE"_信息_"D)RIGHT(專業,2)="信息"答案:B解析:[單選題]24.網絡建設大類的標簽中不包括A)4G弱覆蓋B)寬帶未覆蓋C)寬帶需光改D)4G發展不足答案:D解析:[單選題]25.我們把delta訓練法則理解為訓練一個()的感知器,也就是一個線性單元A)有閾值B)無閾值C)無限制D)有限制答案:B解析:[單選題]26.IMEI中的TypeAllocationCode字段可以確定哪些信息A)裝配號B)終端型號C)出廠序號D)檢驗碼答案:B解析:[單選題]27.下面哪個不是信息標記的格式?A)JSONB)YAMLC)CSVD)HTML答案:C解析:[單選題]28.3GPPR8及以后的SGSN與MME之間的接口是()A)S3B)S12C)S6D)S4答案:A解析:[單選題]29.Python科學計算的基本包是()。A)MatplotlibB)PandasC)NumpyD)Scikit-learn答案:C解析:[單選題]30.播放流暢度為統計時間段內視頻播放流暢的單據量N1除以總的視頻單據量N2。其中視頻播放流暢的單據為:(視頻平均下載速率/視頻碼率)>=()的單據。A)1B)1.1C)1.2D)1.3答案:C解析:[單選題]31.NoSQL含義是指()A)NO!SQL;B)NomberSQL;C)NotOnlySQLD)NOLLSQL答案:C解析:[單選題]32.使能一臺IP地址為的主機訪問Internet的必要技術是A)靜態路由B)動態路由C)路由引入D)NAT答案:D解析:[單選題]33.大數據科學關注大數據網絡發展和運營過程中()大數據的規律及其與自然和社會活動之間的關系。A)大數據網絡發展和運營過程B)規劃建設運營管理C)規律和驗證D)發現和驗證答案:D解析:[單選題]34.Requests庫中,下面哪個是檢查Response對象返回是否成功的狀態屬性?A)raise_for_statusB)headersC)status_codeD)status答案:C解析:題型:[單選題]35.以下關于前饋神經網絡的敘述中正確的是()A)前饋神經網絡只能有3層B)前饋神經網絡中存在反饋C)前饋神經網絡中每一層只接受來自前一層單元的輸入D)以上都是正確的答案:C解析:[單選題]36.通常,我們可通過實驗測試來對學習器的泛化誤差進行評估并進而做出選擇。為此,需使用一個()來測試學習期對新樣本的判別能力A)數據集B)測試集C)模型集D)訓練集答案:B解析:[單選題]37.有一條關聯規則為A→B,此規則的信心水平(confidence)為60%,則代表()A)買B商品的顧客中,有60%的顧客會同時購買AB)同時購買A,B兩商品的顧客,占所有顧客的60%C)買A商品的顧客中,有60%的顧客會同時購買BD)兩商品A,B在交易數據庫中同時被購買的機率為60%答案:C解析:[單選題]38.Requests庫中,下面哪個屬性代表了從服務器返回HTTP協議頭所推薦的編碼方式?A)headersB)apparent_encodingC)textD)encoding答案:D解析:題型:[單選題]39.對于任一個頻繁項集X和它的一個非空真子集Y,S=X-Y,規則S→Y成立的條件是()。A)confidence(→S)≥minconfB)confidence(→Y)<minconfC)confidence(→S)<minconfD)confidence(S→Y)≥minconf答案:D解析:[單選題]40.需求分析的目的是保證需求的()A)目的性和一致性B)完整性和一致性C)正確性和目的性D)完整性和目的性答案:B解析:[單選題]41.以下哪個算法是無監督學習算法()A)DBSCANB)RandomForestRegressorC)KNND)SVC答案:A解析:[單選題]42.在TDLTE網絡中,用戶的業務屬性數據是在哪個網元上配置?A)MMEB)PDNGatewayC)HSSD)eNodeB答案:C解析:[單選題]43.通過聚集多個分類器的預測來提高分類準確率的技術稱為A)組合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:[單選題]44.關于決策樹算法描述錯誤的是()A)決策樹包含根結點、內部結點和葉結點B)決策樹算法對噪聲的干擾十分敏感C)尋找最佳決策樹是完全問題D)冗余屬性不會對決策樹的準確性造成不良影響答案:B解析:[單選題]45.對于雙路的室分系統來說,影響性能的因素有那些()A)雙路功率的平衡度B)雙路天線間距C)A&BD)以上都不影響答案:C解析:[單選題]46.()框架是大數據的核心框架A)集中式計算B)隔離式計算C)分布式計算D)混合式計算答案:C解析:[單選題]47.已知事件A的概率P(A)=0.6,U為必然事件,則P(A+U)=1,P(AU)=A)0.4B)0.6C)0D)1答案:B解析:[單選題]48.關于主成分數目的選取,正確的是()A)保留多少個主成分取決于累計方差在方差總和中所占百分比B)一般選擇50%以上C)選擇前兩個就可以D)選擇的數目和變量的個數一致答案:A解析:[單選題]49.python不支持的數據類型有()A)charB)intC)floatD)list答案:A解析:[單選題]50.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?A)頻繁模式挖掘B)分類和預測C)數據預處理D)數據流挖掘答案:C解析:[單選題]51.如果我使用數據集的全部特征并且能夠達到100%的準確率,但在測試集上僅能達到70%左右,這說明()A)欠擬合B)模型很棒C)過擬合D)算法不好答案:C解析:第2部分:多項選擇題,共17題,每題至少兩個正確答案,多選或少選均不得分。[多選題]52.文本挖掘的工具有()A)SPPTextMiningB)IBMDB2intelligentMinerC)SASTextMinerD)SPSSTextMining答案:BCD解析:[多選題]53.下面有關HAVING子句的說法中正確的是()A)HAVING子句必須與GROUPBY子句同時使用,不能單獨使用B)使用HAVING子句的同時不能使用WHERE子句C)使用HAVING子句的同時可以使用WHERE子句D)使用HAVING子句的作用是限定分組的條件答案:ACD解析:[多選題]54.簇有效性的面向相似性的度量包括()。A)精度B)RandC)JaccardD)召回率答案:BC解析:[多選題]55.檢索所有姓?張?、姓?田?的學生信息,可以使用的SQL語句有______。A)SELECT*FROMstudentWHEREstudent_nameLIKE('張%'OR'田%');B)SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)in('張','田');C)SELECT*FROMstudentWHERESUBSTRING(student_name,1,1)='張'ORSUBSTRING(student_name,1,1)='田';D)SELECT*FROMstudentWHEREstudent_nameLIKE'張%'ORstudent_nameLIKE'田%';答案:BCD解析:[多選題]56.在PTN構建的承載網絡中,經常會用到鏈路聚合技術來實現對端口的保護和擴大鏈路帶寬。使用U2000網管進行監控工作時,經常會發現有LAG_MEMBER_DOWN告警上報,則觸發該告警上報的原因有A)端口的物理連接不可用B)聚合組端口運行了LACP,但LACP報文收發不正常C)端口誤碼越限D)聚合組端口有環回設置答案:ABCD解析:[多選題]57.以下哪些變量使用RFM方法構造出來的?()A)最近3期境外消費金額B)最近6期網銀消費交易筆數C)信用額度D)距最近一次逾期的月數答案:ABD解析:[多選題]58.()這些數據特性都是正確聚類分析具有很強影響的。A)高維性B)規模C)稀疏性D)噪聲和離群點答案:ABCD解析:[多選題]59.可以應用失敗碼定界法的指標包括A)附著成功率B)HTTP響應成功率C)TAU成功率D)TCP建立成功率答案:ABC解析:[多選題]60.若檢驗統計量F近似等于1,說明()A)組間方差中不包含系統因素的影響B)組內方差中不包含系統因素的影響C)組間方差中包含系統因素的影響D)方差分析中不應拒絕原假設答案:AD解析:[多選題]61.經常與子查詢一起使用的運算符有______。A)INB)EXISTSC)ANYD)ALL答案:ABCD解析:[多選題]62.通過性能平臺獲取家庭寬帶性能指標的方法有A)平臺前端頁面獲取B)后端數據庫獲取C)網管導出D)寬帶性能系統導出答案:ABD解析:[多選題]63.關于大數據的來源,以下理解正確的是()A)大數據是數據量變積累達到質變的結果B)數據的產生需要經歷很長時間C)我們每個人都是數據的制造者D)當今的世界,基本上一切都可以用數字表達,所以叫數字化的世界答案:ACD解析:[多選題]64.某4G新用戶,采用全新USIM卡完成EPS初始附著流程,請列舉為完成該流程,SGSN-MME中可能需要用到的業務地址(ServiceIP)有哪些?A)S1-MMEB)S6aC)S10-GTP-CD)S11-GTP-C、DNS這些service的serviceIP地址答案:ABCD解析:[多選題]65.統計學和數據挖掘區別在()A)兩者沒有區別B)數據挖掘經常會面對尺度為GB甚至TB數量級的數據庫,而用傳統的統計方法很難處理這么大尺度的數據集C)兩者采用的模型有區別,數據挖掘往往需要采用各種相應的數學模型和應用傳統統計學以外的數學工具,才能建立最適合描述對象的模型或規則D)統計學和數據挖掘完全沒有聯系答案:BC解析:[多選題]66.網絡大數據支撐規劃進而實現最大化發揮網絡資源價值并滿足不同業務目標訴求的建模關鍵點是A)價值熱點區域識別B)用戶行為及收益分析C)覆蓋評估D)體驗評估答案:AB解析:[多選題]67.在SQL語句中,與表達式?成績BETWEEN80AND90?功能不同的表達式是______。A)成績>=80AND成績<=90B)成績<=80AND成績>90C)成績>=80OR成績<=90D)成績>80AND成績<90答案:BCD解析:[多選題]68.下面列出的條目中,哪些是數據倉庫的基本特征:()A)數據倉庫是面向主題的B)數據倉庫的數據是集成的C)數據倉庫的數據是相正確穩定的D)數據倉庫的數據是反映歷史變化的E)數據倉庫是面向事務的答案:ACD解析:第3部分:判斷題,共20題,請判斷題目是否正確。[判斷題]69.模型的具體化就是預測公式,公式可以產生與觀察值有相似結構的輸出,這就是預測值。()A)正確B)錯誤答案:對解析:[判斷題]70.列表對象的pop()方法默認刪除并返回最后一個元素,如果列表已空則拋出異常。A)正確B)錯誤答案:對解析:[判斷題]71.正確于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本正確分類結果沒有影響。A)正確B)錯誤答案:對解析:[判斷題]72.urlopen()是一個特殊的opener,支持設置代理IP。A)正確B)錯誤答案:錯解析:[判斷題]73.連接查詢中,使用ON指定兩個表之間的連接條件。A)正確B)錯誤答案:對解析:[判斷題]74.如果一個規則X→Y同時滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf,則稱該規則在數據庫D中成立,其中minsup和minconA)正確B)錯誤答案:錯解析:[判斷題]75.一個算法的優劣可以用空間復雜度(SpaceComplexity)與時間復雜度(Timecomplexity)來衡量。A)正確B)錯誤答案:對解析:[判斷題]76.k中心點算法在每個簇中選出一個最靠近均值的實際的對象來代表該簇。A)正確B)錯誤答案:對解析:[判斷題]77.回歸分析預測的值是連續的A)正確B)錯誤答案:對解析:[判斷題]78.在一元線性回歸模型中,變量顯著性檢驗(t檢驗)與方程顯著性檢驗(F檢驗)是一致的。A)正確B)錯誤答案:對解析:[判斷題]79.文本文件是可以迭代的,可以使用forlineinfp類似的語句遍歷文件對象fp中的每一行。A)正確B)錯誤答案:對解析:[判斷題]80.品質數據既可以用整數值表示,也可以用連續值表示。A)正確B)錯誤答案:對解析:[判斷題]81.re模塊中的match方法是從字符串的開頭對輸入的正則表達式進行匹配。A)正確B)錯誤答案:對解析:[判斷題]82.C4.5算法挑選具有最高信息增益的屬性為測試屬性。A)正確B)錯誤答案:錯解析:[判斷題]83.k中心點算法使用絕對誤差標準作為度量聚類質量的目標函數A)正確B)錯誤答案:對解析:[判斷題]84.Datahoop1.2版中K-means聚類分析要求輸入的數據必須是數值型數據。A)正確B)錯誤答案:對解析:[判斷題]85.已知x=list(range(20)),那么語句delx[::2]可以正常執行。A)正確B)錯誤答案:對解析:[判斷題]86.服務器可以根據請求報頭中的Accept進行判斷,以返回適當的文件格式給瀏覽器。A)正確B)錯誤答案:對解析:[判斷題]87.Python3.x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論