人工智能基礎與應用(第2版)(微課版)課件全套 宋楚平 模塊1-8 人工智能:開啟智慧新時代- 人臉識別:機器也認識你_第1頁
人工智能基礎與應用(第2版)(微課版)課件全套 宋楚平 模塊1-8 人工智能:開啟智慧新時代- 人臉識別:機器也認識你_第2頁
人工智能基礎與應用(第2版)(微課版)課件全套 宋楚平 模塊1-8 人工智能:開啟智慧新時代- 人臉識別:機器也認識你_第3頁
人工智能基礎與應用(第2版)(微課版)課件全套 宋楚平 模塊1-8 人工智能:開啟智慧新時代- 人臉識別:機器也認識你_第4頁
人工智能基礎與應用(第2版)(微課版)課件全套 宋楚平 模塊1-8 人工智能:開啟智慧新時代- 人臉識別:機器也認識你_第5頁
已閱讀5頁,還剩492頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

模塊?人工智能:開啟智慧新時代1-1人工智能的緣起目錄CONTENTS什么是人工智能01人工智能的發展歷程02人工智能的特征及典型應用03人工智能的緣起1.什么是人工智能場景導入Deepseek為啥引起國內外轟動?1、訓練成本低;2、性能上比肩頂尖模型;3、開源、算法優化;4、用戶體驗和使用成本優勢;Other本地部署……Deepseek的橫空出世意味著什么?人工智能的緣起1.什么是人工智能場景導入春晚機器人為什么有如此驚艷的表現?例如:-周圍感知--決策選擇--身體平衡--與人協作-……請大家結合機器人表現和你的認知,說說你對人工智能概念的理解?人工智能的緣起1.什么是人工智能場景導入上圖中的商品推薦和AI文生圖意味著什么?這其中有沒有智能的成分在里面?人工智能的緣起1.什么是人工智能人工智能的定義馬文·明斯基的觀點:“人工智能是一門科學,是使機器做那些人需要通過智能來做的事情”尼爾斯·尼爾森提出:“人工智能是一門關于研究知識的表示、知識的獲取和知識的運用的學科”目前學術主流觀點:“人工智能是研究、開發用于模擬、延伸和擴展人的智能行為的理論、方法、技術及應用系統的一門綜合性科學”人工智能的緣起2.人工智能的發展歷程人工智能發展的階段1人工智能的萌芽期人工智能的緣起2.人工智能的發展歷程人工智能發展的階段2人工智能的啟動期參加達特茅斯會議的部分大佬ELIZA對話程序界面人工智能的緣起2.人工智能的發展歷程人工智能發展的階段3人工智能的消沉期AI新技術難突破,表現不佳經濟不景氣、政府對AI資助減少計算機算力和存力有限AIWinter(AI之冬)人工智能的緣起2.人工智能的發展歷程人工智能發展的階段4人工智能的突破期基于xcon系統的商業計算機BP算法奠定了多層神經網絡發展的基礎,開創了人工智能的數據驅動時代。人工智能的緣起2.人工智能的發展歷程人工智能發展的階段5人工智能的高速發展期“深藍”挑戰卡斯帕羅夫ChatGPT對話界面AlphaGo挑戰李世石人工智能的緣起2.人工智能的發展歷程人工智能發展的階段人工智能大致發展歷程人工智能的緣起3.人工智能的特征及典型應用人工智能的特征像人一樣思考像人一樣行動具體表現具有學習能力具有感知能力具有決策能力具有行動能力人工智能的緣起3.人工智能的特征及典型應用人工智能的典型應用智能駕駛人臉識別智慧醫療智能家居媒體娛樂軍事無人機仿生機器人(索菲亞)Thankyouverymuch!人工智能基礎與應用模塊?人工智能:開啟智慧新時代1-2機器學習與深度學習目錄CONTENTS機器學習的含義01深度學習的崛起02神經網絡的魅力031-2機器學習與深度學習1.機器學習的含義專門研究計算機模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習主要特點利用算法從數據中學習規律和模式,如垃圾分類、線性回歸房價預測等模型所需的數據規模可大可小,通常通過特征選擇、降維等技術來處理大規模數據集模型一般較為簡單,主要是線性模型和統計模型等優點是預測準度較高,適用于各種類型的數據和任務;缺點是需要足夠的數據和特征工程,對于復雜任務的建模能力有限1-2機器學習與深度學習2.深度學習的崛起深度學習(DeepLearning)屬于機器學習的子類,是利用深度神經網絡來解決特征表達并處理任務的一種學習方法。深度學習主要特點使用神經網絡模型,通過反向傳播算法和梯度下降優化技術來調整網絡權重和參數尤其對于復雜的任務和模型,需要大量的數據集模型通常非常復雜,具有大量的神經元和層數,能自動提取和抽象出有用的特征優點是有強大的表征能力和泛化能力,能夠處理復雜的非線性問題;缺點是計算量大、訓練時間長,對大規模數據集的需求較高1-2機器學習與深度學習2.深度學習的崛起場景導入冷撲大師動物識別文生視頻車牌識別1-2機器學習與深度學習3.神經網絡的魅力感知機(單層神經網絡)單層神經網絡MarkI感知機(美國國家歷史博物館)1-2機器學習與深度學習3.神經網絡的魅力人工神經網絡的模型單層神經網絡1-2機器學習與深度學習3.神經網絡的魅力神經網絡模擬大腦的功能單層神經網絡1-2機器學習與深度學習3.神經網絡的魅力場景導入神經網絡的工作過程單層神經網絡Thankyouverymuch!人工智能基礎與應用模塊?人工智能:開啟智慧新時代1-3生成式人工智能目錄CONTENTS生成式人工智能的概念01AIGC的特征及核心技術02大模型的應用舉例031-3生成式人工智能1.生成式人工智能的概念是指基于生成對抗網絡、大型預訓練模型等人工智能的技術方法,通過已有數據的學習和識別,經歷訓練、微調與生成,以及評估和調整等階段,最后以適當的泛化能力生成相關內容的技術。

AIGC五個方面的生成內容1-3生成式人工智能2.AIGC的特征及核心技術(1)AIGC的特征1-3生成式人工智能2.AIGC的特征及核心技術(2)AIGC的核心技術1-3生成式人工智能2.AIGC的特征及核心技術(2)AIGC的核心技術基礎模型包括深度變分自編碼、生成對抗神經網絡、擴散模型、Transformer和VisionTransformer等技術。1-3生成式人工智能2.AIGC的特征及核心技術(2)AIGC的核心技術經典的預訓練大模型1-3生成式人工智能3.大模型及應用舉例ChatGPT-3OpenAI于2020年5月發布的GPT-3受到了大量新聞報道和公眾關注。在兩年內,GPT-3已經積累了100萬訂閱用戶。ChatGPT為用戶提供了一個與人工智能對話的直觀界面,也許可以滿足人類與生俱來的與他人溝通和聯系的愿望。ChatGPT-3是ChatGPT系列的第三個版本,它擁有1750億個參數,是當時全球最大的預訓練語言模型,在自然語言理解、生成和對話能力方面都取得了重大突破。1-3生成式人工智能3.大模型及應用舉例清華ChatDD2023年9月21日,水木分子發布新一代對話式藥物研發助手ChatDD(DrugDesign)和全球首個千億參數多模態生物醫藥對話大模型ChatDD-FM100B,其在C-Eval評測中達到全部醫學4項專業第一,是唯一在該4項評測中平均分超過90分的模型ChatDD能夠對多模態數據進行融合理解,與專家自然交互人機協作,將人類專家知識與大模型知識聯結,重新定義藥物研發模式。1-3生成式人工智能3.大模型及應用舉例谷歌Gemini2023年12月Gooqle發布了全新多模態大模型Gemini,能夠實現多源多模態數據的輸入和輸出,包括文本、代碼、視頻、音頻和圖像,并擁有較好的跨模態識別、推理能力。2024年2月,Google推出Gemini1.5系列模型,提升了多模態大模型的計算效率,能夠從規模龐大的上下文(如多個長文檔、數小時的視頻等)中調用細粒度信息并進行推理。2024年9月,Google對Gemini1.5模型進行更新,提升性能、加快響應速度。1-3生成式人工智能3.大模型及應用舉例谷歌DeepMind—AlphaFold32024年5月8日,DeepMind與lsomorphicLabs共同推出Transformer+Diffusion架構的生成式A模型--AlphaFold3。AlphaFold3以前所未有的精確度成功預測所有生命分子的結構及其相互作用方式;傳統生物學需要人類用顯微鏡從不同的角度觀察,耗時久目精度低。AlphaFold3的問世意味著將對更多變革性的科學研究起到推動作用,包括基因組學研究、加速藥物設計、新材料開發、培育作物等等。1-3生成式人工智能3.大模型及應用舉例OpenAI—GPT-42024年6月1日,谷歌DeepMind、約翰斯·霍普金斯大學和牛津大學等機構的學者發布的研究證實:GPT-4在心智理論任務上的表現完全達到成年人類的水平;在第6階推理上的表現大幅超過人類。自然子刊NatureHumanBehavioui已證實:得益于龐大的數據庫,GPT-4比人類更能理解對話中的諷刺和暗示。來自阿肯色大學的研究團隊發現ChatGPT-4在創造性思維測試中的表現已經超越人類。1-3生成式人工智能3.大模型及應用舉例deepseek強化學習技術:采用大規模強化學習,僅需少量標注數據即可顯著提升模型性能。智能訓練場:構建了智能訓練場,提升推理能力,在推理任務上可與OpenAIO1媲美。開源共享:完全開源,降低了AI應用門檻,賦能開源社區發展。部署廣泛:上線后迅速與眾多平臺和企業達成合作,展示出強大的市場適應性和技術兼容性。應用登頂:DeepSeek7天突破1億用戶,具有強大的市場吸引力和用戶基礎。Thankyouverymuch!人工智能基礎與應用模塊?人工智能:開啟智慧新時代項目1—智作演示文稿目錄CONTENTS提出問題01解決方案02預備知識03完成任務04一、提出問題如何自動生成PPT?場景導入提供工作效率便捷自動生成應對多個場景內容豐富契合AIGC技術助力問題解決二、解決方案選擇AIGC工具訊飛星火文心一言華為盤古KIMI+…三、預備知識

星火認知大模型的服務三、預備知識

星火認知大模型的服務四、完成任務任務1—擬定一個主題任務描述確定一個能準確概括你PPT內容的主題,建議你從演示文稿的中心思想、你要表述的目的性、主要觀點等方面綜合研判PPT的主題。此處是要制作一個關于人工智能簡要發展歷史的PPT。/?from=sparkHome四、完成任務任務1—擬定一個主題任務目標確定一個關于人工智能發展歷史進程的鮮明主題,有助于大模型的理解,以便生成一份高質量的演示文稿。四、完成任務任務1—擬定一個主題完成步驟1:進入圖1-27所示的訊飛智文操作界面,選擇“主題創建”方式來生成演示文稿四、完成任務任務1—擬定一個主題完成步驟2:單擊“開始創作”按鈕,出現圖1-28所示的操作窗口四、完成任務任務1—擬定一個主題完成步驟3:在文本框輸入主題,以完成主題輸入任務四、完成任務任務2—生成和保存演示文稿任務描述讓大模型按擬定好的演示文稿的主題,自動生成大綱和內容,用戶可以根據具體需求對大綱進行編輯和修改,并選擇適配的模板進行配色,最終生成一份演示文稿。四、完成任務任務2—生成和保存演示文稿任務目標自動生成一份與主題契合的演示文稿,并將演示文稿下載到本地以方便隨時使用和修改。四、完成任務任務2—生成和保存演示文稿完成步驟1生成大綱進入演示文稿的大綱編輯界面。四、完成任務任務2—生成和保存演示文稿完成步驟2選擇模板進入下圖所示的模板配色界面。四、完成任務任務2—生成和保存演示文稿完成步驟3保存演示文稿經過片刻的內容生成過程,如下圖所示,一個科技藍樣式、目錄清晰、圖文并茂的演示文稿就已生成。人工智能基礎與應用Thankyouverymuch!模塊?Python:人工智能開發語言2-1初識Python目錄CONTENTSPython簡介01Python的特點及應用領域02一.Python簡介發明人:吉多·范羅蘇姆一.Python簡介最受歡迎的計算機語言二.Python的特點及應用領域1Python特點Python為人工智能首選語言二.Python的特點及應用領域2Python應用領域數據挖掘機器學習、深度學習二.Python的特點及應用領域2Python應用領域云計算與運維Web應用開發人工智能基礎與應用Thankyouverymuch!2-2Python開發環境搭建模塊?Python:人工智能開發語言目錄CONTENTS安裝Python01安裝Anaconda02淺嘗Python03一.安裝Python1.下載Python安裝文件一.安裝Python1.下載Python安裝文件一.安裝Python2.安裝Python安裝設置界面安裝成功提示界面一.安裝Python2.安裝PythonPython快捷菜單安裝成功提示界面Python3.10ModuleDocs(64-bit):內置服務式的Python模塊幫助文檔。IDLE(Python3.1064-bit):Python自帶的集成開發環境(IntegratedDevelopmentandLearningEnvironment,IDLE)。Python3.10Manuals(64-bit):Python幫助文檔。Python3.10(64-bit):Python解釋器。二.安裝Anaconda1.安裝AnacondaAnaconda是一個可以便捷安裝開發包且對包能夠進行統一管理的工具,它包含了conda、numpy、scipy、pandas、notebook在內的超過180多個科學包及其依賴項。官網下載界面二.安裝Anaconda1.安裝AnacondaAnaconda安裝完成勾選安裝選項二.安裝Anaconda2.啟動JupyterNotebook啟動JupyternotebookAnaconda的快捷菜單二.安裝Anaconda2.啟動JupyterNotebookJupyterNotebook主頁二.安裝Anaconda3.淺嘗Python新建case2-1的腳本源程序編寫源代碼人工智能基礎與應用Thankyouverymuch!2-3Python編程基礎模塊?Python:人工智能開發語言目錄CONTENTS變量01分支結構02循環結構03組合數據類型04一.變量1.變量定義程序需要將數據存儲到變量中,變量是計算機內存的存儲位置的表示,也叫內存變量。變量用標識符來命名,也就是每個變量都有自己的名字,但命名變量的時候不能讓變量名字與Python保留的關鍵字沖突。Python的關鍵字一.變量2.變量命名規則定義變量在Python內部是有類型的,如int、float、str等類型,但是在編程時無須關注變量類型,所有的變量都無須提前聲明,賦值后就能使用。另外,可以將不同類型的數據賦值給同一個變量,所以變量的類型是可以隨時改變的,可以用函數type來查看變量的類型。二.分支結構1.執行流程語法表示ifcondition_1:

statement_block_1elifcondition_2:

statement_block_2else:

statement_block_3二.分支結構2.例子【引例2-2】判斷狗對應于人類的年齡。(1)引例描述輸入狗的實際年齡,按下列公式計算狗對應于人類的年齡。

上式中x表示狗的實際年齡,y表示狗對應于人類的年齡。源代碼三.循環結構1.while循環語法表示while循環條件(condition):

執行語句(statements)…三.循環結構2.例子源代碼【引例2-3】多次反復計算狗對應于人類的年齡。(1)引例描述多次反復計算不同狗的年齡對應于人類的年齡,直到用戶按“Q”鍵退出。四.組合數據類型1.列表列表用方括號“[]”來表示,里面的各元素用逗號分開,列表的各元素可以是不同的數據類型。創建一個列表,只要把用逗號分開的所有的元素使用方括號括起來即可。示例代碼二.安裝Anaconda1.安裝AnacondaAnaconda是一個可以便捷安裝開發包且對包能夠進行統一管理的工具,它包含了conda、numpy、scipy、pandas、notebook在內的超過180多個科學包及其依賴項。官網下載界面二.安裝Anaconda1.安裝AnacondaAnaconda安裝完成勾選安裝選項二.安裝Anaconda2.啟動JupyterNotebook啟動JupyternotebookAnaconda的快捷菜單二.安裝Anaconda2.啟動JupyterNotebookJupyterNotebook主頁二.安裝Anaconda3.淺嘗Python新建case2-1的腳本源程序編寫源代碼人工智能基礎與應用Thankyouverymuch!2-4NumPy基礎應用模塊?Python:人工智能開發語言目錄CONTENTS求解三元一次方程01數組計算02向量化處理03一.求解三元一次方程1.NumPy安裝在Anaconda中已包含NumPy等基礎庫,如果其中沒有找到NumPy,說明它還沒有安裝或已被卸載,需要執行以下命令來安裝NumPy。

pip3installnumpyNumpy安裝界面一.求解三元一次方程2.引例執行結果:二.數組計算1.數組定義數組是NumPy中最基礎的數據結構,N維數組對象是ndarray,它是一系列同類型元素的集合,以0開始表示集合中元素的索引。在深度學習中,神經元之間的連接關系往往采用數組形式的參數來表示,還有大數據的統計也常常采用數組特性進行排序、去重和統計計算等。使用NumPy提供的數組操作,比使用常規的Python數組操作有更高的效率和更簡潔的編程代碼。ndarray0開始索引表示處理高校編程簡潔二.數組計算2.引例1 importnumpyasnp2 iris_data=np.loadtxt("./data/iris.csv",delimiter=",",skiprows=1)3 print(type(iris_data))4 print(iris_data.shape)5 print('花萼長度的最大值:',np.max(iris_data[:,1]))6 print('花萼長度的最小值:',np.min(iris_data[:,1]))7 print('花萼長度的平均值:',np.mean(iris_data[:,1]))8 print('花萼長度的標準差:',np.std(iris_data[:,1]))9 print('花萼長度的方差:',np.var(iris_data[:,1]))二.數組計算2.引例執行結果:數組計算方便代碼簡潔高效三.向量化處理1.概念三.向量化處理2.引例讀數據三.向量化處理2.引例VS結果對比:人工智能基礎與應用Thankyouverymuch!2-5Matplotlib基礎應用模塊?Python:人工智能開發語言目錄CONTENTS繪制直方圖01繪制散點圖02一.繪制直方圖1.Matplotlib簡介Python的第三方庫Matplotlib提供了豐富的繪圖功能,是一個非常好用的數據可視化工具。Anaconda中已包含該工具,可以直接調用該第三方庫。matplotlib官網一.繪制直方圖2.引例一.繪制直方圖2.引例運行結果:二.繪制散點圖1.概念散點圖利用一系列的散點將兩個變量的聯合分布情況描繪出來,可以從圖形分布中推斷一些信息,如兩個變量間是否存在某種有意義的關系,當數據以恰當的方式在散點圖中展示出來時,就可以非常直觀地觀察到某些趨勢或者模式,也就可以揭示變量之間的關系。下面,以鳶尾花數據集為例,利用seaborn庫的散點圖嘗試揭示鳶尾花花瓣的寬度和長度之間的關系。二.繪制散點圖2.引例二.繪制散點圖2.引例執行結果:人工智能基礎與應用Thankyouverymuch!2-6項目1—精準扶貧計劃模塊?Python:人工智能開發語言目錄CONTENTS提出問題01解決方案02預備知識03任務1—從鍵盤輸入方程的系數04任務2—調用roots函數求解方程05一.提出問題問題描述某縣城當年有約12000個貧困人口,為合理利于扶貧資源、保持可持續減貧目標,計劃3年后將貧困人口控制在2000左右,你認為將年平均貧困人口下降率定為多少比較合適?如何利用numpy求解該問題二.解決方案方案分析數學描述:解決流程:三.預備知識求根函數rootsnumpy.roots([多項式系數])Polynomial([多項式系數]).roots()用法1:用法2:四.任務1——從鍵盤輸入方程的系數1.兩種實現代碼方法1方法2四.任務1——從鍵盤輸入方程的系數2.運行結果方法1結果:方法2結果:五.任務2——調用roots函數求解方程1.任務描述用兩種方法實現!五.任務2——調用roots函數求解方程2.實現代碼方法1:方法2:五.任務2——調用roots函數求解方程2.運行結果方法1:方法2:人工智能基礎與應用Thankyouverymuch!2-7項目2—解讀第二產業的GDP發展趨勢模塊?Python:人工智能開發語言目錄CONTENTS提出問題01解決方案02預備知識03任務1—讀取GDP數據并觀察數據結構04任務2—繪制GDP數據的折線圖05一.提出問題問題描述當拿到大量有關GDP的數據時,如何從這些表面看起來雜亂無章的數據中解讀出一些有價值的信息呢?顯然,如果能將這些數據以圖形的方式展現出來,如將這些數據以隨時間(或另一個變量)而變化的關系在圖上繪制出來,是否能直觀地幫助人們更深入洞悉數據背后可能隱藏的一些有用信息呢?如何用圖形展示數據規律二.解決方案方案分析使用工具:解決方案示意圖:數據處理繪制圖形三.預備知識Lineplot函數四.任務1——讀取GDP數據并觀察數據結構1.讀數據用Pandas讀數據數據排序四.任務1——從鍵盤輸入方程的系數2.觀察數據12行、4列數據,每列數據有列名五.任務2——繪制GDP數據的折線圖1.現實代碼為什么類型轉換五.任務2——繪制GDP數據的折線圖2.運行結果你能解讀出哪些結論?人工智能基礎與應用Thankyouverymuch!3-1認識機器學習模塊?線性回歸:預測未來趨勢目錄CONTENTS機器如何學習01機器學習算法02一.機器如何學習1.機器學習的一般流程機器通過學習,就具備了可以自主獲得事物規律或解決問題的能力一.機器如何學習2.機器學習的三要素經驗數據從哪學?算法怎么學?模型學到什么?以算力作為支撐二.機器學習算法1.監督學習所謂監督學習:是指機器在有已知輸入值xi和輸出值y的經驗數據(樣本)的情況下開展的學習。學習方法特點:(1)訓練的數據有標簽(label)。(2)樣本的特征和標簽已知。(3)學習的目的就是建立一個將輸入準確映射到輸出的模型。基于動物特征的貓鼠分類的監督學習二.機器學習算法2.無監督學習無監督學習:就是指機器在學習過程中不受監督,學習模型不斷提高自我認知和不斷鞏固,最后進行自我歸納來達到學習目的。學習方法特點:(1)無需大量的標注數據。(2)以更接近人類的學習方式不斷自我發現、學習和調整。不同分類結果的無監督學習人工智能基礎與應用Thankyouverymuch!3-2認識線性回歸模塊?線性回歸:預測未來趨勢目錄CONTENTS線性回歸的數學表達式01梯度下降法03線性回歸的幾個概念02一.線性回歸的數學表達式定義及表達式線性回歸(linearregression)是一種通過擬合自變量xi與因變量y之間的最佳線性關系,來預測目標變量的方法。如果上式中只包括一個自變量x和一個因變量y,且二者的關系可用一條直線近似表示,則這種回歸分析被稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量xi,且因變量y和自變量xi之間是線性關系,則稱其為多元線性回歸分析。二.線性回歸的幾個概念1.方差衡量誤差真實值:預測值:y二.線性回歸的幾個概念2.總平方和SST:衡量了所有觀測值相對于整體均值的離散程度。其值越大,說明原始的樣本本身具有越大的波動,這種波動反映了因變量的整體偏差。如何評價上述直線對真實值擬合的好壞程度二.線性回歸的幾個概念3.擬合優度R2:稱為判斷系數或擬合優度。由右式可知,線性回歸方程以外的其他因素引起的誤差SSE越小,R2就越接近1,表示此線性回歸方程可以很好地解釋因變量的變化;反之,如果SSE越大,接近總體偏差SST,R2就越接近0,說明此問題可能不適合采用線性回歸模型解決。盡可能最小y=+三.梯度下降法1.定義?梯度下降法:?是一種用于求解函數最小值的優化算法。其基本思想是通過迭代的方式,沿著函數的負梯度方向逐步減小函數值,直到達到局部最小值。梯度下降法適用于求解無約束優化問題,常用于機器學習中的參數優化。損失函數L可以理解為系數b和w的函數,記為尋找損失函數L(b,w)的最小值的過程,實際就是按照某種方向,不斷去微調b和w的值,一步一步嘗試找到這個最小值。Min()三.梯度下降法2.求解過程三.梯度下降法3.線性回歸解決問題一般步驟01根據問題構建一個線性回歸模型,即構建一個函數。02用樣本訓練模型,使用梯度下降法調整模型參數,目標使損失函數最小。03重復步驟(2),直至找到損失函數的最小值。04用驗證集測試模型的精度,評價指標常為均方誤差MSE。05如預測結果不滿意,則需要改進模型(如加大訓練集、改變學習率等)。06回到步驟(2),重新訓練模型,直至獲得滿意的模型。07利用自變量xi和滿意的模型去計算預測值y,從而解決預測問題。人工智能基礎與應用Thankyouverymuch!3-3項目1—預測二手車價格模塊?線性回歸:預測未來趨勢目錄CONTENTS提出問題01預備知識03解決方案02任務1—準備訓練集和測試集04任務3—模型的測試及評估06任務2—模型的構建與訓練05一.提出問題問題描述

市面上二手車種類繁多,又涉及到汽車的諸多專業知識,對于多數人而言,購買一輛與實際價格相符、車型適中的二手車,并不是一件輕松的事情。如果能從二手車交易的歷史記錄中發現某種規律,如何合理評估一臺二手車的預交易價格呢?讓機器幫你找到這個問題的答案二.解決方案1.問題本質二手車價格預測問題,其實是尋找二手車的基本特征(如汽車品牌、變速箱類型、已使用年限等)與價格之間的關系多元線性回歸的機器學習問題二.解決方案2.解決方案三.預備知識1.數據歸一化(1)min-max標準化(2)零均值標準化三.預備知識2.線性回歸模型如何訓練1)定義模型:假設有9個自變量x(品牌、車身類型等)影響二手車的價格,模型的輸出值是價格y。因此,模型的假設函數表達式如下。2)構造損失函數:

3)開始訓練:初始化參數,包括參數φ、學習率和迭代次數n。將樣本數據輸入模型,計算損失函數。利用學習算法如梯度下降法尋找損失函數的最小值,并依次更新模型的參數。不斷重復步驟(2)、(3),直到模型收斂于或訓練迭代次數達到設定閾值n即停止。四.任務1——準備訓練集和測試集1.樣本數據結構四.任務1——準備訓練集和測試集2.數據集歸一化處理切分數據切分數據四.任務1——準備訓練集和測試集2.數據集歸一化處理歸一化后的樣本數據四.任務1——準備訓練集和測試集3.數據集分成訓練集和測試集訓練集測試集五.任務2——模型的構建與訓練1.了解模型參數五.任務2——模型的構建與訓練2.代碼實現構建模型五.任務2——模型的構建與訓練2.代碼實現模型訓練后的結果為啥模型得分不高?六.任務3——模型的測試及評估1.計算均方誤差代碼執行后的結果六.任務3——模型的測試及評估2.繪制預測效果圖實現代碼六.任務3——模型的測試及評估2.繪制預測效果圖運行結果六.任務3——模型的測試及評估3.誤差原因分析01異常值對預測結果的影響。02樣本集特征值個數過少對預測結果的影響。03樣本的規模對預測結果的影響。04其它,如模型類型等。人工智能基礎與應用Thankyouverymuch!3-4項目2—預測投保人醫療費用模塊?線性回歸:預測未來趨勢目錄CONTENTS提出問題01預備知識03解決方案02任務1—加載數據并進行數據預處理04任務3—進一步改善模型性能06任務2—訓練和測試醫療費用預測模型05一.提出問題問題描述我國農村醫療保險和全民醫保制度的全面實施,緩解了廣大人民群眾“看病貴”的問題,提高了人民群眾的生活質量,也改變了人們對保險的認識,越來越多人的接受和認可商業保險。與此同時,醫療保險公司作為一種商業經營實體,對投保人在未來可能發生的醫療費用進行預測,這是醫療保險公司回避風險、提高經營利潤的一種保障措施。如何能得到一個較為精準的醫療費用預測模型呢機器如何去學習預測?二.解決方案1.問題本質醫療費用預測問題,就是試圖從投保人的特征變量入手,通過機器學習提供的某種模型,如線性回歸等,來尋找一個醫療費用與投保人特征相關的函數表達式。仍然采用多元線性回歸來求解問題二.解決方案2.解決方案三.預備知識1.DataFrame數據的檢索用途:從數據集中切分出需要的數據loc方法使用名稱檢索iloc方法使用索引號檢索三.預備知識1.DataFrame數據的檢索示例:運行結果三.預備知識2.DataFrame數據的更改1)按索引條件直接更改:結果三.預備知識2.DataFrame數據的更改2)用apply方法更改:結果四.任務1——加載數據并進行數據預處理1.導入相關庫并加載數據讀取的數據四.任務1——加載數據并進行數據預處理2.數據清洗和轉換對數據進行轉換,以方便機器學習四.任務1——加載數據并進行數據預處理3.數據的歸一化處理歸一化后的樣本數據五.任務2——訓練和測試醫療費用預測模型1.構建線性回歸模型構建線性回歸模型五.任務2——訓練和測試醫療費用預測模型2.準備訓練集和測試集按7∶3的比例分為訓練集和測試集五.任務2——訓練和測試醫療費用預測模型3.模型訓練和測試運行結果五.任務2——訓練和測試醫療費用預測模型4.預測結果可視化可視化結果六.任務3——進一步改善模型性能1.改進方向01分析樣本特征的相關性。Age與bmi強相關六.任務3——進一步改善模型性能1.改進方向02考慮模型中是否存在非線性變量。處理辦法六.任務3——進一步改善模型性能1.改進方向03評估連續性變量的影響是否也是連續的。處理辦法六.任務3——進一步改善模型性能1.改進方向改進舉例:消除bmi和smoker的共同作用六.任務3——進一步改善模型性能1.改進方向改進后的效果:相對于前一個模型,改進后的模型得分一下子提高到0.869,說明此模型能更好地解釋醫療費用的變化,這可能提示肥胖吸煙者對醫療費用的影響是巨大的。六.任務3——進一步改善模型性能2.預測費用預測費用:人工智能基礎與應用Thankyouverymuch!4-1分類器模塊?分門別類:幫你“分而治之”目錄CONTENTS什么是分類器01分類器如何工作02一.什么是分類器1.概念分類器:分類是人工智能的一種重要方法,是在已有數據的基礎上學習出一個分類函數或構造出一個分類模型,該函數或者模型就是一個能完成分類任務的人工智能系統,即人們通常所說的分類器。。數據集分類器給定的某個類型二.分類器如何工作1.一般工作過程三個關鍵要素:1樣本特征2正負樣本3分類器類型二.分類器如何工作2.三個概念(1)樣本特征。樣本特征提取是分類器工作的首要任務,如果待分類對象沒有提取特征,也就沒有分類的依據,就無從辨別對象的種類。綜合考慮關聯對象的差異,提取出有效的特征,讓分類器準確工作。(2)正、負樣本。針對分類問題,正樣本是指想要正確分類出的類別所對應的樣本,負樣本是指不屬于這一類別的樣本。既要考慮正樣本,又要根據實際工作場景,合理選取足夠多的負樣本,保證模型訓練效果。(3)分類器。分類器通過學習得到一個目標函數或模型(以下統稱為模型),它能把樣本的特征集X映射到一個預先定義的類別號y。二.分類器如何工作2.三個概念那么,機器學習中,常見的分類器有哪些呢人工智能基礎與應用Thankyouverymuch!4-2幾種主要的分類器模塊?分門別類:幫你“分而治之”目錄CONTENTS決策樹01k近鄰分類器03貝葉斯分類器02神經網絡05支持向量機04一.決策樹概念決策樹(decisiontree):用于決策的一棵“樹”,它從根節點出發,通過決策節點對樣本的不同特征進行劃分,按照結果進入不同的選擇分支,最終到達某一葉子節點,獲得分類結果。垃圾郵件分類決策樹:二.貝葉斯分類器1.概念貝葉斯分類器(bayesclassifier):就是對于給定的分類項,利用貝葉斯定理,求解該分類項在預先給定條件下各類別中出現的概率,哪個概率最大,就將其劃分為哪個類別。貝葉斯定理公式:二.貝葉斯分類器2.舉例用貝葉斯分類器來判定垃圾郵件:

x=[1,0]分別表示正常郵件和垃圾郵件E:由n個關鍵詞組成的郵件三.k近鄰分類器概念k近鄰(k-NearestNeighbor,KNN)分類器:把每個具有n個特征的樣本看作n維空間的一個點,對于給定的新樣本,先計算該點與其他點的距離(相似度),然后將新樣本指派為周圍k個最近鄰的多數類。什么形狀的物體四.支持向量機1.概念支持向量機(SupportVectorMachine,SVM):基本思想是通過非線性映射,把樣本空間映射到一個高維的特征空間,將原本樣本空間線性不可分的問題,轉化成在高維空間通過線性超平面將樣本完全劃分開的問題。不可分:可分:四.支持向量機1.原理超平面離直線兩邊的數據的間隔越大,對訓練集的數據的局限性或噪聲有最大的容忍能力,也就是所謂的魯棒性。支持向量機就是要找到使這個間隔最大的決策超平面。五.神經網絡1.概念?神經網絡(NeuralNetwork)?是一種模仿動物神經網絡行為特征進行分布式并行信息處理的算法數學模型。權重值w激活函數φ加權求和及函數sgn處理神經網絡基本結構:人工智能基礎與應用Thankyouverymuch!4-3項目1—識別貓狗模塊?分門別類:幫你“分而治之”目錄CONTENTS提出問題01預備知識03解決方案02任務1—樣本數據預處理04任務3—評估模型效果06任務2—構建及訓練KNN模型05一.提出問題問題描述

對于人類來說,可以很容易識別身邊的貓和狗,這是人類視覺經千萬年演變進化的結果。但對于計算機而言,想讓它識別一個圖像上的貓和狗就不那么容易了。如何能讓計算機識別出下圖中的貓和狗呢?二.解決方案1.選擇分類器選用KNN其核心思想是:如果一個樣本在特征空間中的k個最近鄰中的多數屬于某個類別,則該樣本也屬于這個類別。通常采用歐氏距離來計算兩樣本之間的距離大小,并據此找到某樣本的k個最近鄰。貓或狗?K個最近鄰中,多數是貓K個最近鄰中,多數是狗二.解決方案2.解決方案三.預備知識1.圖像灰度化灰度化實現代碼:三.預備知識2.歐氏距離點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根用KNN算法計算兩個樣本之間的距離,以此來判定某個樣本周圍哪些鄰居離它是最近的或者是最相似的。歐氏距離是常用的一種計算公式。樣本X與樣本Y之間的歐氏距離等于各特征值之差的平方和的平方根三.預備知識3.

KNN算法的主要參數點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根三.預備知識4.分類性能度量指標(1)真正(TruePositive,TP):被模型預測為正的正樣本。(2)假正(FalsePositive,FP):被模型預測為正的負樣本。(3)假負(FalseNegative,FN):被模型預測為負的正樣本。(4)真負(TrueNegative,TN):被模型預測為負的負樣本。(1)真正(TruePositive,TP):被模型預測為正的正樣本。(2)假正(FalsePositive,FP):被模型預測為正的負樣本。(3)假負(FalseNegative,FN):被模型預測為負的正樣本。(4)真負(TrueNegative,TN):被模型預測為負的負樣本。三.預備知識4.分類性能度量指標(1)精確率(2)正確率(3)召回率(4)F1值四.任務1——樣本數據預處理1.將圖像信息轉存為向量(1)導入相關的庫(2)定義轉換函數img2array將圖像數據轉換成一維向量四.任務1——樣本數據預處理1.將圖像信息轉存為向量(3)調用函數生成向量保存灰度圖像信息的向量內容四.任務1——樣本數據預處理2.批量生成樣本數據(1)生成所有樣本的特征值和標簽值四.任務1——樣本數據預處理2.批量生成樣本數據(2)樣本數據的歸一化處理歸一化數據生成訓練集和測試集四.任務2——構建及訓練KNN模型1.構建KNN模型上述代碼定義一個KNN模型knn,模型中參數n_neighbors=13(采用訓練樣本數量的平方根的一半)、p=2表示使用歐氏距離來計算樣本相似度大小,weights='distance'表示權重與距離成反比,即更近的近鄰有更高的權重。四.任務2——構建及訓練KNN模型2.訓練模型(1)用訓練集x_train、y_train來訓練模型(2)觀察模型訓練效果訓練效果不錯,在測試集上是否任然有很好的表現?四.任務3——評估模型效果1.

測試模型性能模型性能測試報告評價精度為63%狗的召回率62%貓的召回率64%什么原因導致模型不理想?四.任務3——評估模型效果2.通過交叉表了解模型的錯分情況(1)直觀分析:四.任務3——評估模型效果2.通過交叉表了解模型的錯分情況(2)交叉表分析:正確識別36個錯誤劃分34個四.任務3——評估模型效果2.通過交叉表了解模型的錯分情況如何去改善模型的性能例如嘗試改變模型參數K人工智能基礎與應用Thankyouverymuch!3-4項目2—輔助診斷乳腺癌模塊?分門別類:幫你“分而治之”目錄CONTENTS提出問題01預備知識03解決方案02任務1—準備訓練集和測試集04任務3—評估模型診斷效果06任務2—構建和訓練模型05一.提出問題問題描述隨著醫療AI在醫療領域的投入使用,如今智慧醫療科技的新紀元已經開啟,如圖4-17所示,借助“人工智能大腦”,AI輔助診療新時代正在到來。而現在AI輔助診斷技術的應用,能夠很大程度地提高醫療機構、醫生的工作效率,降低醫生的工作強度,降低漏診率。那么,AI是如何輔助醫生進行病情診斷的呢二.解決方案1.問題本質從活檢數據中判斷患者是有病還是沒病,本身是一個二分類問題,另外,活檢數據稀有、獲取成本高,符合SVM的適用條件,為此,采用SVM進行分類。采用SVM求解問題二.解決方案2.解決方案三.預備知識1.SVM的最優分界面H0則是最優分界面,因為它到兩邊臨界分界面的距離最大,具有較強的抗噪聲能力和較小的泛化誤差。三.預備知識2.SVM模型參數核函數K(x,y)變換線性不可分線性可分SVM模型的常用參數三.預備知識3.解讀數據集其中id列是編號,無實際意義。診斷列diagnosis取值[M|B],分別表示診斷為惡性或良性。其他30個列由細胞核的10個不同特征的平均值、標準差、最差值等構成。四.任務1——準備訓練集和測試集1.按比例生成訓練集和測試集8:2比例降為1維四.任務1——準備訓練集和測試集2.觀察測試集的分布情況用數據預測是否患病五.任務2——構建和訓練模型1.用訓練樣本訓練SVM模型訓練模型構建模型用支持向量機svm構建預測模型,核函數為rbf,懲罰參數C取值為1五.任務2——構建和訓練模型1.查看模型訓練效果訓練得分不理想什么原因五.任務3——評估模型診斷效果1.用測試樣本測試SVM模型運行結果如何改善五.任務3——評估模型診斷效果2.改善模型的性能1歸一化:2調整模型參數C:改善前改善后五.任務3——評估模型診斷效果2.改善模型的性能還有哪些改進模型的辦法人工智能基礎與應用Thankyouverymuch!5-1聚類分析模塊?物以類聚:發現新簇群目錄CONTENTS何為聚類分析01常見聚類方法02聚類性能度量03一.何為聚類分析1.定義聚類分析:他是一種典型的無監督學習,也就是在事先不知道每個樣本的類別、沒有對應標簽值的情況下,將未知類別的樣本按照一定的規則劃分成若干個相對獨立的簇。簇的特點:同一個簇中的樣本盡可能相似不同的簇中的樣本盡可能不相似一.何為聚類分析2.典型應用領域領域銷售領域醫學領域生物領域安全領域一.何為聚類分析3.幾個概念如何去描述簇?簇質心簇大小簇密度簇號…二.常見聚類方法1.基于劃分的聚類二.常見聚類方法2.基于層次的聚類二.常見聚類方法3.基于密度的聚類三.聚類性能度量2.三個概念無論使用什么聚類方法對樣本進行分簇,都會涉及如何對聚類后的結果進行評估,以度量聚類模型的性能的問題。聚類性能度量指標用于對聚類后的結果進行評估,分為內部指標和外部指標兩大類。外部指標要事先指定聚類模型作為參考來評估聚類結果的好壞,稱為有標簽的評估;而內部指標是指不借助任何外部參考,只用參與聚類的樣本本身評估聚類結果的好壞。內部指標慣性值輪廓系數CH分數該值越小越好,越小證明樣本在類間的分布越集中值越大,說明同類樣本相距越近,不同樣本相距越遠。當簇密集且分離較好時,CH分數更高,因此CH值越大越好。人工智能基礎與應用Thankyouverymuch!5-2k均值聚類模塊?物以類聚:發現新簇群目錄CONTENTSk均值算法01k均值算法應用提示02一.k均值算法1.概念k均值(k-means)算法是一種基于距離劃分的聚類算法,由于其具有算法簡單、靈活性高、運行效果足夠好等特點,因此較常用。該算法計算樣本與簇質心的距離,與簇質心相近的樣本被劃分為同一簇。重用歐式距離計算樣本之間的相似度一.k均值算法2.算法流程一.k均值算法2.算法流程“×”為質心,第一輪迭代后用分別標記為星形和圓形來表示兩個類別,此時新的質心的位置已經發生了改變。圖5-5(e)和圖5-5(f)重復了圖5-5(c)和圖5-5(d)所示的過程。××二.k均值算法應用提示1.k的初值k的初值。k是一個提前定義好的數,其目標是最小化每個簇內部的差異,最大化簇之間的差異。那k取什么值合適呢?它取決于具體的業務需求或分析動機。例如,營銷部門只有3種不同的客戶資源來支撐拓展市場,那么設定k=3以聚類3種不同的客戶可能是一個不錯的決定。k=沒有先驗知識,建議令然后在附近值搜索。二.k均值算法應用提示2.初始質心的選擇k均值算法對初始質心是比較敏感的,這意味著隨機的初始質心可能會對最終的聚類結果產生較大的影響。選擇初始質心的方法有3種:一是如果事先知道某幾個樣本彼此之間完全不同,就選擇它們作為初始質心;二是跳出樣本范圍,在特征空間的任意地方取隨機值為初始質心;三是分段選擇初始質心,第一個初始質心隨機選擇,其他初始質心按距離已定初始質心最遠的樣本點來選擇。建議:通過多次運行,以聚類性能最優的聚類結果為最優解。二.k均值算法應用提示3.聚類完畢后有簇號聚類后所有樣本都是有簇號的。原來沒有標簽號(簇號)的樣本經過聚類會擁有一個簇號。相同簇號的樣本的特征平均值就是該簇質心的坐標,這也是k均值算法名稱的由來。提示:簇號默認從0開始,相同簇號的樣本屬于一類。二.k均值算法應用提示4.聚類結束條件盡管聚類能產生新的信息,但人們不應該在新信息的準確性上花費太多時間,因為聚類是無監督學習,所以更應該關注對新信息的洞察和理解。當樣本數量很大,或者定義的聚類誤差很嚴苛時,為避免聚類陷入遲遲不出結果的尷尬局面,必須設定最大迭代次數和誤差閾值,滿足其一即可停止聚類。提示:迭代達到最大值,停止;或相鄰兩次聚類后質心移動的距離小于誤差閾值,停止。人工智能基礎與應用Thankyouverymuch!5-3項目1—探究企鵝物種的分類模塊?物以類聚:發現新簇群目錄CONTENTS提出問題01預備知識03解決方案02任務1—樣本數據的預處理04任務3—繪制企鵝聚類后的散點圖06任務2—確定企鵝物種數量k的最佳值05一.提出問題問題描述由于全球氣候變暖和人類活動的影響,企鵝的生存狀況并不樂觀。因此,我們應該采取行動來保護這些迷人的生物,以確保它們能夠正常繁衍、繼續生存。為此,一項必要的工作就是研究如何區分企鵝的種類、哪些特征決定了它們的差異。一眼看企鵝都很相似,如何區分不用物種的企鵝呢?弄清這些問題就能更好地保護不同的企鵝,使它們成為人類永遠的朋友。二.解決方案1.選擇聚類法k均值算法解決問題基本思想:基于企鵝的一些形態特征(如嘴的大小、體重等)反映了企鵝的獨特之處和一些重要信息,然后用聚類算法K-Means對樣本進行聚類,最后得到各樣本的類別。聚類0類1類0類二.解決方案2.具體方案三.預備知識1.企鵝常識已知地球上現存的企鵝共有20余種,它們的頭部顏色、個體大小、體型等不盡相同。其中喙的長度、深度,鰭肢的長度和重量等特征對企鵝的生存影響較大。這些特征之間是否存在強相關關系,這樣的關系是否會對企鵝的分類造成影響?可以通過后期的數據分析找到該問題的答案。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根什么是降維?為什么要降維?前文已經談到,在衡量采用什么方法來分析數據之前最好能對數據的全貌有一個可視化的了解,能從中發現一些內在規律或啟示,以便更好地指導人們選擇相對合理的方法來解決問題。通常只在二維或三維的空間可視化數據,但原始數據的實際維度可能是四維甚至更高維度。采用數據降維的方法將原始數據的維度降為二維或三維,以便進行可視化處理,從而直觀了解數據的分布。除此之外,數據降維還有提高計算速度、提高模型擬合度等好處。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果企鵝是否劃分為4個物種比較合適三.預備知識3.認識k均值聚類點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根四.任務1——樣本數據的預處理1.查看數據的異常情況(1)觀察數據空值情況數據集空值分布統計:四.任務1——樣本數據的預處理1.查看數據的異常情況(2)異常值的統計四.任務1——樣本數據的預處理2.對數據進行預處理對數據進行空值刪除、異常值剔除和數據的標準化處理四.任務2——確定企鵝物種數量k的最佳值1.導入相關的第三方庫及模塊要對企鵝樣本數據進行聚類,在讀取樣本數據的基礎上,除進行聚類操作外,還要計算輪廓系數和慣性值,所以要通過以下代碼導入相關的第三方庫及模塊。四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖代碼的運行結果四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四組質心四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(1)實現代碼:四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖運行結果四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(2)分析結論:企鵝分為4類比較合適,同時不難看出:企鵝的喙深度、重量和性別3個指標可能是區分企鵝物種的主要因素。人工智能基礎與應用Thankyouverymuch!5-4項目2—電商客戶分類模塊?物以類聚:發現新簇群目錄CONTENTS提出問題01預備知識03解決方案02任務1—選擇最佳的客戶群分數目k04任務3—為3類客戶提出營銷建議06任務2—計算3類客戶的RFM平均值05一.提出問題問題描述隨著電商市場的快速發展,眾多的企業將營銷重點從產品轉向客戶,維持良好的客戶關系逐漸成為企業發展的核心。充分了解客戶群體,知道哪些客戶是重要保持客戶、哪些客戶是重要發展客戶、哪些客戶是一般挽留客戶等,事實現企業利潤最大化的重要保證。哪如何精準區分電商系統中客戶的群體類別,并根據客戶群分結果采取不同的營銷措施呢二.解決方案2.解決方案(1)先驗知識消費間隔消費頻率消費總額客戶群分營銷策略二.解決方案2.解決方案(2)具體方案三.預備知識1.RFM模型介紹利用消費間隔R、消費頻率F和消費總額M這3個指標,采用k均值算法對客戶進行聚類。三.預備知識2.k均值模型主要屬性【引例5-2】對比聚類后4種企鵝的質心數據。(1)導入相關三方庫三.預備知識2.k均值模型主要屬性(2)數據處理及獲取聚類后的質心三.預備知識2.k均值模型主要屬性(3)繪制4類企鵝在6個維度上的雷達圖四.任務1——選擇最佳的客戶群分數目k1.清洗掉無關的數據kfm_datas數據四.任務1——選擇最佳的客戶群分數目k2.對數據進行標準化處理X部分值:四.任務1——選擇最佳的客戶群分數目k3.求不同k值下客戶群分的聚類性能指標CH分數輪廓系數慣性值四.任務1——選擇最佳的客戶群分數目k4.繪制3個內部聚類性能指標的變化圖四.任務1——選擇最佳的客戶群分數目k4.繪制3個內部聚類性能指標的變化圖運行結果五.任務2——計算3類客戶的RFM平均值1.重新聚類最后得到聚類后的各樣本標簽五.任務2——計算3類客戶的RFM平均值2.求質心數據各客戶類型統計數據五.任務3——為3類客戶提出營銷建議1.繪制客戶群體的R、F、M指標折線圖五.任務3——為3類客戶提出營銷建議1.繪制客戶群體的R、F、M指標折線圖運行結果五.任務3——為3類客戶提出營銷建議2.提供營銷建議五.任務3——為3類客戶提出營銷建議2.提供營銷建議對3類客戶進行了價值排名,并隨后分別給出了營銷建議!人工智能基礎與應用Thankyouverymuch!6-1認識個性化推薦模塊?個性化推薦:主動滿足你的需求目錄CONTENTS個性化推薦的思路01推薦算法分類02推薦效果評估03一.個性化推薦的思路1.基于的事實認知人們更喜歡那些與自己喜歡的東西相似的物品、傾向于與和自己趣味相投的人有相似的愛好,或者不同的客戶群體有固定的購物習慣等。個性化推薦的實現過程:一.個性化推薦的思路2.推薦系統的兩個特性特征主動化個性化推薦系統應用領域二.推薦算法分類1.協同過濾推薦算法基本思想:給用戶推薦和他興趣相似的用戶感興趣的物品。當需要為用戶A推薦時,首先找到和A興趣相似的用戶集合(用U表示),然后把集合U中所有用戶感興趣而A沒有聽說過(未進行過操作)的物品推薦給A。1.基于用戶的協同過濾推薦算法:算法步驟:1.計算用戶之間的相似度,選取最相似的N個用戶構成用戶集合。2.找到集合中用戶喜歡但目標用戶沒有用過的物品,將其推薦給目標用戶。二.推薦算法分類1.協同過濾推薦算法皮爾遜相關系數:P余弦向量相似度:相似度計算:二.推薦算法分類1.協同過濾推薦算法基于用戶協同過濾推薦示例:二.推薦算法分類1.協同過濾推薦算法2.基于物品的協同過濾推薦算法:基本思想:給用戶推薦與他們以前喜歡的物品相似的物品。這里所說的相似并非從物品的角度出發,而是基于一種假設:喜歡物品A的用戶大多也喜歡物品B,代表著物品A和物品B相似。算法步驟:1.計算物品之間的相似度。2.針對目標用戶u,找到和用戶感興趣的物品最相似的物品集合,然后根據其感興趣程度由高到低確定N個物品并推薦給用戶u。二.推薦算法分類1.協同過濾推薦算法2.基于物品的協同過濾推薦算法:物品相似度計算用戶u對可能感興趣的物品j的興趣度二.推薦算法分類1.協同過濾推薦算法2.基于物品的協同過濾推薦算法:基于物品的協同過濾推薦示例二.推薦算法分類2.

基于內容推薦算法基本思想:向用戶推薦與其感興趣的內容相似的物品,如用戶喜歡勵志類電影,那么系統會直接他推薦《阿甘正傳》這部電影。這個過程綜合考慮了用戶興趣和電影內容,因此不需要提供用戶的歷史行為數據,這能夠很好地解決新用戶的“冷啟動”問題。算法步驟:1.為每個物品(Item)構建一個物品的特征。2.為每個用戶(User)構建一個用戶的喜好特征。3.計算用戶喜好特征與物品特征的相似度,向用戶推薦相似度最高的物品。二.推薦算法分類3.關聯規則推薦算法基本原理:基于物品之間的關聯性,通過對用戶的購買記錄進行規則挖掘,發現不同用戶群體之間共同的購買習慣,從而實現用戶群體的興趣建模和物品推薦。概念:項集而項集是指總項集中所有不同項目分別組合形成的集合,如{牛奶}、{牛奶,面包}、{牛奶,尿不濕,啤酒}等。項目數為k的項集稱為k-項集,因此,上述項集分別是1-項集、2-項集、3-項集。二.推薦算法分類3.關聯規則推薦算法關聯規則3個統計量二.推薦算法分類3.關聯規則推薦算法關聯規則3個統計量關聯規則的提取即找出所有支持度大于等于最小支持度,且置信度大于等于最小置信度以及提升度靠前(大于1)的關聯規則。像{牛奶}→{面包}這樣的關聯規則稱為強關聯規則,因為它們同時具有高支持度和高置信度。二.推薦算法分類3.關聯規則推薦算法Apriori算法簡介算法步驟:1.通過迭代計算所有事務中的頻繁項集,即支持度不低于用戶設定的閾值的項集。2.利用頻繁項集構造出滿足用戶最小置信度的關聯規則。二.推薦算法分類3.關聯規則推薦算法Apriori算法應用示例求最小支持度是50%,最小置信度是50%的關聯規則二.推薦算法分類3.關聯規則推薦算法Apriori算法應用示例使用Apriori

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論