




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數據開發基礎大數據開發基礎(習題卷24)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共57題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.HDFS中的塊比磁盤中的塊大,其目的是為了()。A)增加存儲空間B)便于存儲較大的文件C)提高存儲空間的利用率D)最小化尋址開銷答案:D解析:[單選題]2.getPartition()的參數中numReduceTasks指的是設置的Reducer的任務數量,默認值是()。A)0B)1C)2D)3答案:B解析:[單選題]3.MaxCompute提供了多種針對日期的計算函數,以下函數中,能實現計算兩個時間的差的是:()。A)datediffB)timestampdiffC)intervalD)直接相減答案:A解析:[單選題]4.Spark的核心概念不包括?A)RDDB)HoqC)寬套依賴D)Shuffle答案:B解析:[單選題]5.下列說法錯誤的是?()A)大數據魔鏡是一款優秀的國產數據分析軟件,可以讓用戶真正理解探索分析數據B)Tableau是桌面系統中最簡單的商業智能工具軟件,是一個用于網頁作圖、生成互動圖形的JavaScript函數庫C)GoogleFusionTables讓一般使用者也可以輕松制作出專業的統計地圖D)ModestMaps是一個小型、可擴展、交互式的免費庫,提供了一套查看衛星地圖的API答案:B解析:[單選題]6.以下屬于NoSQL的是A)OracleB)MySQLC)MongoDBD)SQLite答案:C解析:[單選題]7.假設使用一個較復雜的回歸模型來擬合樣本數據。使用Ridge回歸,并調整正則化參數λ以降低模型復雜度。在λ非常小的情況下,下列關于偏差與方差的說法正確的是()。A)偏差低,方差低B)偏差低,方差高C)偏差高,方差低D)偏差高,方差高答案:B解析:λ很小,則意味著模型比較復雜,在這種情況下,會產生偏差低且方差高的結果,模型會對數據過擬合。[單選題]8.屬于無監督學習的是()A)、隨機森林B)、樸素貝葉斯C)、主成分分析D)、支持向量機答案:C解析:[單選題]9.GaussDB200有兩張相同宇段結構和數據量的表table1和table.2,table1是行存表,table2是列存表,執行SQL語句"selectnamefromtable_namewherenum=-1",table1查詢了()數據量,table2查詢了()數據量(一個單元格為一個數據量).ZA)9.6B)3.9C)3.6D)9.9答案:C解析:[單選題]10.在一個簡單的線性回歸模型中(只有一個變量),如果將輸入變量改變一個單位(增加或減少),那么輸出將改變()。A)一個單位B)不變C)截距D)回歸模型的尺度因子答案:D解析:假設線性回歸模型是y=a+bx,若x改變一個單位,如x+1,則y改變b個單位,b是回歸模型的尺度因子。[單選題]11.HDFS適合的讀寫任務是?A)一次寫入,少次讀取B)多次寫入,少次讀取C)一次寫入,多次讀取D)多次寫入,多次讀取答案:C解析:[單選題]12.大數據的4V特點:Volume、Velocity、Variety、Veracity,其中Variety的含義是()A)價值密度低B)處理速度快C)數據類型繁多D)數據體量巨大答案:C解析:[單選題]13.Choice函數屬于()函數A)文本函數B)數值函數C)邏輯函數D)集合函數答案:C解析:[單選題]14.在大數據計算服務(MaxCompute,原ODPS)的數據倉庫中的訂單表fact_order,建表語句如下:createtablefact_order(order_idstring,order_amtdouble,order_dtstring)paititionedby(dtstring);此表中的數據是從ods_order加工而來,ods_order建表語句如下:createtableods_order(order_idstring.order_amtbigint,order_dtstring);ods_order中有一條記錄數據值是order_idorder_amtorder_dt000110020160301運行SQL語句將數據從ods_order加載到fact_order中:insertoverwritetablefact_orderpartition(dt=?20160301?)select*fromods_order;對此語句的執行結果描述正確的是:()。A)語句可以執行,但是這條數據會被當作臟數據丟棄B)目標表與源表中的數據類型不一致,執行出錯C)提交SQL時會報語法錯誤D)語句可以執行,order_amt的值會被自動的轉為double類型答案:D解析:[單選題]15.以下聚合函數求個數的是()A)AVGB)SUMC)MAXD)COUNT答案:D解析:[單選題]16.下面不屬于比較檢驗的方法是(__)。A)假設檢驗B)交叉驗證t檢驗C)McNemar檢驗D)留出法答案:D解析:[單選題]17.HBase依賴()提供消息通信機制A)ZookeeperB)ChubbyC)RPCD)Socket答案:A解析:記住即可[單選題]18.下列關于鍵值數據庫的描述,哪一項是錯誤的:(D)A)擴展性好,靈活性好B)大量寫操作時性能高C)無法存儲結構化信息D)條件査詢效率高答案:D解析:[單選題]19.Hadoop中,()執行文件系統命名空間操作。A)DataNodeB)NameNodeC)JobTrackerD)TaskTracker答案:B解析:NameNode在HDFS這種文件系統中充當著Master的角色,負責的功能有很多,比如文件系統目錄管理(命名空間管理)、數據塊管理、數據節點管理、租約管理、緩存管理等。[單選題]20.()是從總體N個單位中隨機地抽取n個單位作為樣本的抽樣方法。每個單位被抽中的概率是相等的,屬于?等概率抽樣?。A)方便抽樣B)分層抽樣C)整群抽樣D)簡單隨機抽樣答案:D解析:[單選題]21.數據使用環節的安全技術措施除防火墻、()、防病毒、防DDOS、漏洞檢測等網絡安全防護技術措施外,還需實現以下安全技術能力:賬號權限管理、數據安全域、數據脫敏、日志管理和審計、異常行為實時監控和終端數據防泄漏。A)入侵檢測B)病毒檢測C)程序檢測D)進程檢測答案:A解析:數據使用環節的安全技術措施除防火墻、入侵檢測、防病毒、防DDOS、漏洞檢測等網絡安全防護技術措施外,還需實現以下安全技術能力:賬號權限管理、數據安全域、數據脫敏、日志管理和審計、異常行為實時監控和終端數據防泄漏。[單選題]22.以下關于方差、偏差、泛化誤差說法正確的是(__)A)偏差表達了當前任務上任何模型所能達到的期望泛化誤差的下界,刻畫了學習問題本身的難度。B)方差度量了模型的期望預測和真實結果的偏離程度,刻畫了模型本身的擬合能力。C)噪聲度量了同樣大小的訓練集的變動所導致的學習性能的變化,即刻畫了數據擾動所造成的影響。D)當方差過高,會出現過擬合現象。答案:D解析:[單選題]23.Python如何定義一個函數:()A)classB)functionC)defD)template答案:C解析:[單選題]24.具體來說,Map對數據進行指定的操作,生成()形式的中間結果。A)數組B)矩陣C)隊列D)鍵值對答案:D解析:[單選題]25.數據庫管理系統是()A)操作系統的一部分B)在操作系統支持下的系統軟件C)一種編譯程序D)一種操作系統答案:B解析:[單選題]26.map(ImmutableBytesWritablekey,Resultvalue,Contextcontext){}方法中的key指的是()A)HBase表的主鍵B)rowkey對應的記錄集合C)HBase表的列簇D)HBase表的存儲單元的值答案:A解析:[單選題]27.下列關于TF-IDF說法正確的是?A)該值與特征項在文檔中出現的頻率成反比B)該值與特征項在文檔中出現的頻率成正比C)該值與在整個語料庫中出現該特征項的文檔庫成正比D)該值與特征項在文檔中出現的頻率無關答案:B解析:[單選題]28.大數據可能帶來(),但未必能夠帶來()A)精確度;準確度B)準確度;精確度C)精確度;多樣性D)多樣性;準確度答案:A解析:[單選題]29.下面哪個不屬于Reducer階段()A)ShuffleB)SortC)MapD)Reduce答案:C解析:[單選題]30.構造了一個詞表:{1.?小明?2.?喜歡?3.?踢?4.?看?5.?足球?6.?籃球?7.?電影?},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示[()]。A)1101001B)1111111C)1111100D)1110100答案:D解析:[單選題]31.如果想刪除字符串兩端的空白字符使用字符串方法A)stripB)replaceC)lowerD)upper答案:A解析:[單選題]32.給定一個長度為n的不完整單詞序列,我們希望預測下一個字母是什么比如輸入是predictio(9個字母組成),希望預測第十個字母是什么()適用于解決這個工作A)循環神經網絡十B)受限波爾茲曼機C)全連接神經網絡D)卷積神經網絡答案:A解析:[單選題]33.?啤酒與尿布?的故事,體現了哪種大數據思維方式:()A)我為人人,人人為我B)全樣而非抽樣C)效率而非精確D)相關而非因果答案:D解析:[單選題]34.關于Spark中SparkSQL描述不準確的是?A)SparkSQL使用場景包括毫秒級實時查詢B)SQL語句通過SparkSQL模塊解析為DAG,交給SparkCore執行C)通過Sparksession提交SQL語句,任務像Spark應用一樣,提交到集群中分布式運行。D)SparksQL是Spark用來處理結構化數據的一個模塊,可以在spark應用中接使用SQL語句對數據進行操作。答案:A解析:[單選題]35.以下關于隱馬爾科夫模型中,敘述錯誤的是()。A)是一種有向圖模型B)是一種無向圖模型C)是一種結構簡單的動態貝葉斯網絡D)常被應用于時序數據建模答案:B解析:[單選題]36.下面關于決策樹學習相關描述不正確的有(__)。A)決策樹學習的本質是一種逼近離散值目標函數的過程B)決策樹的根節點表示分類的開始C)中間節點表示某一個屬性的屬性值D)從根節點到葉節點的路徑表示一個具體的實例答案:C解析:[單選題]37.下列函數中可以計算字典元素個數的是()。A)cmp()B)len()C)str()D)type()答案:B解析:cmp()用于比較;len()用于計算元素個數;str()用于將對象轉換為字符259串;type()求對象類型。[單選題]38.下列有關函數的說法中,正確的是()。A)函數的定義必須在程序的開頭B)函數定義后,其中的程序就可以自動執行C)函數定義后需要調動才會執行D)函數體與關鍵字關鍵字def必須左對齊答案:C解析:[單選題]39.事務對數據對象加鎖后擁有何種控制權是由封鎖的()決定的。A)狀態B)類型C)數量D)屬性答案:B解析:[單選題]40.HBase是一個布式的、面向()的開源數據庫A)行B)列C)表D)數據集答案:B解析:[單選題]41.VARCHAR(4)類型的字段存儲'abcd'占用的字節數為()。--A)1B)3C)4D)5答案:D解析:[單選題]42.關于Hadoop下列說法錯誤的是()A)HDFS采用了Master/Slave的架構模型B)Namenode負責維護文件系統的命名空間C)Datanode執行比如打開、關閉、重命名文件操作D)HDFS暴露了文件系統的命名空間,允許用戶以文件的形式在上面存儲數據答案:C解析:Namenode執行文件系統的名字空間操作,比如打開、關閉、重命名文件或目錄,不是Datanode[單選題]43.云計算是對()技術的發展與運用A)并行計算B)網格計算C)分布式計算D)三個選項都是答案:D解析:[單選題]44.由于不同類別的關鍵詞對排序的貢獻不同,檢索算法一般把查詢關鍵詞分為幾類,以下哪一類不屬于此關鍵詞類型的是()。A)引用詞B)普通關鍵詞C)高頻詞匯D)擴展關鍵詞答案:C解析:[單選題]45.線性判別分析是一種經典的(__)學習方法。A)線性B)非線性C)聚類D)降維答案:A解析:[單選題]46.一般地,?人?與?馬?分別與?人馬?相似,但?人?與?馬?很不相似;要達到這個目的,可以令?人?、?馬?與?人馬?之間的距離都比較小,但?人?與?馬?之間的距離很大,此時該距離不滿足()。A)非負性B)同一性C)對稱性D)直遞性答案:D解析:[單選題]47.DataFrame和RDD最大的區別是()。A)科學統計支持B)多了schemaC)存儲方式不一樣D)外部數據源支持答案:B解析:相比于RDD,DataFrame多了數據的結構信息,即schema。[單選題]48.Maxcompute的ACL授權操作一般涉及三個要素,不包括:()。A)操作B)客體C)限制條件D)主體答案:C解析:[單選題]49.KafkaClusterMirroring工具可以實現以下哪些功能?A)Kafka跨集群數據同步方案B)Kafka單集群內數據備份C)Kafka但集群內數據恢復D)以上全不正確答案:A解析:[單選題]50.有一個關系,課程目錄(課程號,授課教師,所述專業),規定授課教師不能取空值,這一規則屬于()A)實體完整性約束B)參照完整性約束C)用戶自定義完整性約束D)關鍵字完整性約束答案:C解析:[單選題]51.Python數據分析方向的第三方庫是A)pdfminerB)beautifulsoup4C)timeD)numpy答案:D解析:[單選題]52.跨平臺基礎設施和分析工具不包括A)亞馬遜Web服務B)微軟CortanaC)Google云平臺D)微軟Azure答案:B解析:[單選題]53.當ElasticSearch集群有節點加入或退出時,集群數據會發生什么動作A)數據重載B)數據重分布C)數據更新D)數據重建答案:B解析:[單選題]54.在Zookeeper和Yarn的協同工作中,當ActiveResourceManager產生故障時,StandbyResourceManager會從以下哪些目錄中獲取Application相關信息?A)metastoreB)StatestoreC)StoreageD)Warehouse答案:B解析:第2部分:多項選擇題,共23題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.TaskScheduler的調度策略有()A)FIFOSchedulerB)FAIRSchedulerC)CapacitySchedulerD)QosScheduler答案:AC解析:[多選題]56.以下選項中,屬于MapReduce特征的有()。A)以主從結構的形式運行B)容錯機制的復雜性C)任務備份機制的必要性D)數據存儲位置固定答案:ABC解析:[多選題]57.執行以下代碼段Age=12ifage<4print("Youradmissioncostis$0.")時,輸出為()。A)invalidsyntaxB)expectedanindentedblockC)name'age'isnotdefinedD)unexpectedEOFwhileparsing答案:ABC解析:[多選題]58.關系數據模型哪些優點?()A)結構簡單B)有標準語言C)適用于集合操作D)可表示復雜的語義答案:ABC解析:[多選題]59.下面對字符串中的count(),index(),find()方法描述錯誤的是A)count()方法用于統計字符串里某個字符出現的次數B)find()方法檢測字符串中是否包含子字符串str如果包含子字符串返回開始的索引值,否則會報一個異常C)index()方法檢測字符串中是否包含子字符串str,如果str不在返回-1D)find()方法檢測字符串中是否包含子字符串str,如果str不在返回-1答案:BC解析:[多選題]60.執行HBase讀數據業務,需要讀取哪幾部分數據?A)HLogB)HMasterC)HFileD)MemStore答案:CD解析:[多選題]61.大數據計算服務(MaxCompute,原ODPS)中的ACL授權時類似SQL92定義的GRANT/REVOKE語法來實現,更接近于傳統關系型數據庫的授權模式,Policy授權主要解決ACL授權機制無法解決的一些復雜授權場景。以下場景中,()既能使用ACL授權又能使用Policy授權實現。A)一次操作對一組對象進行授權B)只允許用戶使用SQL(而不允許其他類型的Task)來訪問某張表C)將一個對象的多個權限一次性授予一個用戶D)帶限制條件的授權答案:BC解析:[多選題]62.以下關于模塊的描述錯誤的是()。A)用三引號引起來,用于提供某些程序元素的規范B)設計和實現要合并到程序中的特定功能C)定義如何使用它的規范D)任何重用代碼的程序答案:ACD解析:[多選題]63.Spark的部署模式包括()。A)本地模式B)Standalone模式C)SparkOnYARND)SparkOnMesoS答案:ABCD解析:Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalone模式運行。[多選題]64.根據《大數據風控平臺項目操作手冊》,貸后風險預警提示共3種級別,其中,()。A)紅色為高風險B)紫色為中風險C)黃色為中風險D)提示為低風險答案:ACD解析:[多選題]65.相對于HadoopMapReduce,Spark的特點有()。A)通用性B)易用性C)速度快D)容錯性答案:ABC解析:相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。[多選題]66.以下屬于NoSQL的有A)CassandraB)CouchDBC)BigTableD)MySQL答案:ABC解析:[多選題]67.圖像識別通常有()等等A)輪廓識別B)特征識別C)色彩識別D)材質識別答案:ABCD解析:[多選題]68.下列關于核函數的說法正確的是(__)。A)任何一個函數都可以作為核函數B)只要一個對稱函數所對應的核矩陣半正定,它就能作為核函數使用C)任何一個核函數都隱式地定義了一個再生核希爾伯特空間D)核函數可將低維空間中線性可分的數據映射到高維空間,使其線性不可分答案:BC解析:[多選題]69.下面隸屬CNN架構的是:()A)Convolutionallayer+MaxPooling循環數次B)Convolutionallayer重復數次+MaxPooling重復數次C)FlattenD)FullyConnectedFeedforwardnetwork答案:ABCD解析:[多選題]70.數據預處理的關鍵技術包括()A)變量標準化B)變量離散化C)變量低維化D)異常值檢測答案:ABCD解析:[多選題]71.數據挖掘算法的組件包括()。A)模型或模型結構B)評分函數C)優化和搜索方法D)數據管理策略答案:ABCD解析:數據挖掘算法的組件包括模型或模型結構、評分函數、優化和搜索方法、數據管理策略。[多選題]72.Kafka中刪除消息的閾值有哪幾種?A)分區總日志大小B)數據使用的頻率C)數據產生的時間D)硬盤總空間大小答案:AC解析:[多選題]73.下列領域中,使用Python可以實現的是()A)Web開發B)操作系統管理C)科學計算D)游戲答案:ABCD解析:[多選題]74.在MaxCompute中通過SQL創建了一張分區表,createtablet_student(namestring,scorebigint),下面的SQL語句中語法正確的有:()。A)select*fromt_studentorderbyscorelimit100;B)select*fromt_studentorderbyscore;C)selectname,scoreaspfromt_studentorderbyplimit100;D)selectname,scoreassfromt_studentorderbyscorelimit100;答案:AC解析:[多選題]75.()對象的操作不需要通過Maxcompute的任務(Task)來完成。A)projectB)UDFC)instanceD)resource答案:ABCD解析:[多選題]76.可能導致交叉檢驗模型評估較差的原因有()。A)模型過擬合B)模型欠擬合C)模型過度復雜D)模型過度簡單答案:ABCD解析:以上問題都可能導致模型評估效果較差。[多選題]77.Hive特性包括哪些?A)易用易編程。B)靈活方便的ETL(extract/transform/load)。C)可直接訪問HDFS文件以及HBase。D)支持MapReduce.Tez、Spark等多種計算引擎。答案:ABCD解析:第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.在Flink中,checkpoint機制能夠保證應用在運行過程中出現失敗時,從某一個點恢復,在此過程中,流快照是根據數據流入順序依次創建的。A)正確B)錯誤答案:對解析:[判斷題]79.啟動Hadoop集群服務之前需要格式化文件系統。()A)正確B)錯誤答案:對解析:[判斷題]80.不能用用含日期時間索引與標簽的NumPy數組生成DataFrameA)正確B)錯誤答案:錯解析:[判斷題]81.數據科學家需要擁有數據產品的研發能力,不需要團隊合作與協同工作。()A)正確B)錯誤答案:錯解析:[判斷題]82.Python中的變量只能由字母、下劃線、數字組成,且不能以數字開頭。A)正確B)錯誤答案:對解析:[判斷題]83.數據體現業務本質和內涵,遵從業務的邏輯和關聯關系,依據業務才能更好實現對數據的全生命周期統一管理。()A)正確B)錯誤答案:對解析:[判斷題]84.內置函數len()返回指定序列的元素個數,適用于列表、元組、字符串、字典、集合以及range、zip等迭代對象。A)正確B)錯誤答案:對解析:[判斷題]85.每個Topic都由一個或者多個Partitions構成,Partition數量決定了每個Consumergroup中并發消費者的最大數量。A)正確B)錯誤答案:對解析:[判斷題]86.隨著大數據技術的快速發展和廣泛應用,國家競爭焦點已經從資本、人口、資源的爭奪擴展到對大數據的競爭。A)正確B)錯誤答案:對解析:[判斷題]87.Pandas中的索引對象是可以修改的。()A)正確B)錯誤答案:錯解析:[判斷題]88.表達式chr(ord('a')^32^32)的值為'a'。A)正確B)錯誤答案:對解析:[判斷題]89.()
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電機培訓課件圖片
- 轉正實習報告
- 2025年中國大米蛋白行業發展前景預測及投資戰略研究報告
- 2025年中國微型繼電器行業競爭格局分析及投資規劃研究報告
- 廠房租賃合同
- 氫燃料電池項目評價分析報告
- 2025年中國止回閥閥辨行業市場發展前景及發展趨勢與投資戰略研究報告
- 人防竣工驗收監理質量評估報告完整版
- 中國車載通信系統市場競爭格局及投資前景展望報告
- 2025年數控雕刻機項目提案報告模板
- 虛擬仿真技術在沉浸式教學中的應用研究-洞察分析
- 2024秋廣東開放大學《數學大觀(本)》測驗1-5答案
- 蘇州大學《普通物理學三》2021-2022學年第一學期期末試卷
- 生態修復合同范例
- 工業大數據采集處理與應用
- 程序設計基礎-C(四川師范大學)知到智慧樹章節答案
- 公共體育(四)學習通超星期末考試答案章節答案2024年
- 正畸病歷書模板
- 2023-2024學年全國初中七年級下語文人教版期末考試試卷(含答案解析)
- 超星爾雅學習通《微生物與人類健康(復旦大學)》2024章節測試答案
- 有趣的圖形化編程
評論
0/150
提交評論