數學之美課件_第1頁
數學之美課件_第2頁
數學之美課件_第3頁
數學之美課件_第4頁
數學之美課件_第5頁
已閱讀5頁,還剩36頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

愿科學之精神在國民中得到普及,愿中國年輕的一代涌現更多的杰出專業人才。““——《數學之美》《浪潮之巔》作者騰訊副總裁吳軍這本書適合誰看?所有不理解高數線代用處的理工大學生想在社會科學領域取得突破的文藝青年張嘴移動互聯網閉口云計算的創業才俊這本書適合誰看?幾乎所有領域的人都可以讀一讀這本書你可以不懂數學但你應該學點數學思維整體思維案例:如何抓住搜索引擎排名作弊者?大部分人發現某個網站系統作弊將該網站放進黑名單作弊者更換作弊網站不斷擴展黑名單目錄這其實是一種湊結果的方法,能快速解決問題,但一旦出現新情況就需要不斷調整適應,最后導致解決問題的方法越來越復雜而失去效果。頂尖高手提煉作弊網站鏈接特征建立特征鏈接向量模型發現網站向量特征異常清除作弊網站搜索結果分析業務建立數學模型,然后用實踐數據驗證模型的可靠性,再用經過實踐檢驗的模型去解決所有相關的問題,這樣建立了普遍適應能力的,抗干擾能力強的系統。復雜問題往往有簡單之解,如利用計算機完成機器翻譯。——吳軍簡單問題往往復雜到無解,如回答我們為什么要活著?——秋葉跨界思維案例:如何讓計算機理解自然語言?早期對處理自然語言問題是基于語法分析的機器翻譯語音識別自動問答自動摘要應用層自然語言理解認知層句法分析基礎層語義分析克勞德·艾爾伍德·香農(1916—2001)美國數學家,信息論創建者必須讓計算機理解自然語言的規則!““—1956年于達特茅斯夏季人工智能研究會議這都是人工智能問題——為什么會這樣想?基于人類直覺1能把英語翻譯成漢語的人,一定是能理解兩種語言規則的人。基于慣性思維2通過分析語句和獲取語義,傳統語言學研究已經建立了復雜的語法規則體系。但是他們的思路遇到了大麻煩!!計算量爆炸1僅僅覆蓋20%真實語句的規則就超過幾萬條。多義性陷阱2自然語言含義和上下文相關,難以用規則表述。…….研究陷入長久的停滯……之后一些科學家在語音識別領域實現了意外的突破1970年,弗里德里克·賈里尼克(FrederickJelinek)在IBM華生實驗室想解決語音識別問題,采取了基于統計的方法,使語音識別率從

提高到90%一個句子是否合理,就看他(出現)的可能性大小如何,至于可能性就用概率來衡量。““后來阿爾弗雷德·斯博格特(AlfredSpector)去IBM參觀

后受到啟發,最早讓卡內基-梅隆大學從傳統自然語言處

理方法轉到基于統計方法,這也是李開復后來就讀大學。90%90%1992年,李開復和洪小文循著基于統計方法而不是基于規則分析方法的思路,結合機器學習技術,開發的“斯芬克斯”系統最終解決了語音識別的問題,使語音識別達到了商業化級別。李開復和洪小文出色的工作,幫助他們的論文導師拉杰·雷迪(RajReddy)獲得了圖靈獎。不過讓計算機理解自然語言依然有很多挑戰計算簡化統計模型語料選擇模型訓練給定一個模型,如何計算某個特定的輸出序列的概率?

【Forward-Backward算法】1給定一個模型和某個特定的輸出序列,如何找到最可能產生這個輸出的狀態序列?【維特比算法】2給定足夠量的觀測數據,如何估計隱含馬爾可夫模型的參數?【無監督的鮑姆-韋爾奇算法】3簡化思維案例:如何建立一個可用的搜索引擎?5000億個網頁如何在最短時間內用最少服務器遍歷一遍網頁?5000億個網頁如何用最少空間建立網頁內容的索引用于比對?5000億個網頁如何計算出那些網頁的質量度高可優先推薦?5000億個網頁如何計算出哪個網頁最可能是客戶查找的網頁?相關查詢快速下載制作索引排名推薦查詢相關下載網頁制作索引網頁排名如何在有限時間內最多地爬下最重要的網頁?問題本質數學方法圖論BFS(廣度優先算法)

找到一個網站就順鏈接下載其上全部下級頁面DFS(深度優先算法)

先找到重要的網站下載重要的頁面這個問題也可以等價于從北京出發到走遍全國每個城市,怎樣走最好?查詢相關下載網頁制作索引網頁排名如何用最少空間建立網頁內容的索引用于比對?問題本質數學方法布爾代數建立一個關鍵字詞匯表1每個關鍵詞建立一個長長的二進制數,每一位代表一篇文獻2每一位數如果是1則代表一篇文獻是否含有某關鍵詞,1000100100010…表示第1篇,第5篇,第8篇,第12篇含有某關鍵詞3計算機要找出哪些文字含用戶搜索關鍵詞只需要做一次布爾運算4布爾運算的效率最便宜的微機一秒鐘可以進行數十億次5海量網頁就構成了一個海量索引6索引還需要記錄每個詞的位置和次數7巨大的索引超出計算機內存,需要設計計算機的分布式運算能力8查詢相關下載網頁制作索引網頁排名如何計算出那些網頁的質量度高優先推薦?問題本質數學方法PageRank算法PageRank算法核心思想就是一個網頁被很多其它網頁所鏈接,特別是高質量的網頁所鏈接,那么它的網頁質量就高,相應排名也高。1為了計算網頁的質量排名,就需要知道其關聯的網頁質量排名,這就產生了一個是先有雞還是先有蛋的怪圈。2利用二維矩陣相乘迭代算法解決這個問題,假定所有網頁排名都是一個相同初始值,通過這種迭代算法一定可收斂到網頁真實排名。3計算海量網頁排名計算量非常大,利用稀疏矩陣計算技巧可簡化計算,最后谷歌發展出MapReduce并行計算工具減少服務器負擔。4佩奇和布林成功關鍵是把整個互聯網當做一個整體對待,以往的算法只注意了網頁內容和查詢語句的相關性,忽略了網頁之間的關系。5查詢相關下載網頁制作索引網頁排名如何計算出最可能是客戶要查找的網頁?問題本質數學方法關鍵詞權重的概率論計算(TF-IDF)包含關鍵詞多的網頁應該比少的網頁相關度高,但是長網頁豈不是占了便宜?所以需要計算“關鍵詞的頻率”,也就是關鍵詞次數除以網頁的總字數。1如果一個搜索包括N個關鍵詞,那么需要計算每個關鍵詞在網頁中出現的總詞頻(TF)。2你得刪除掉很多無用的虛詞或副詞,也就是不同的關鍵詞應該有不同的權重,使用最多的權重是“逆文本頻率指數(IDF)”,也就是取關鍵詞在網頁中出現的次數除以網頁總數的對數。3把每個關鍵詞的詞頻和權重做加權求和,就可以得到搜索結果的相關性。4最后的搜索排名主要由相關性和網頁排名綜合決定。5附錄書中錦句““數學的精彩就在于簡單的模型可以干大事,數學的魅力就在于將復雜的問題簡單化。1““有的科學家年級不算老,但是已經落伍,大家需要耐心等他們退休讓出位子,科學才能以更快的速度發展。因為不是所有人都樂意改變自己的觀點,無論對錯。2““知道的信息越多,隨機事件的不確定性就越小。3““首先,小學生和中學生其實沒有必要花那么多時間讀書,而他們的社會經驗,生活能力以及在那時樹立起的志向將幫助他們的一生。其次中學階段花很多時間比同伴多讀的課程,在大學以后用非常短的世界就可以讀完,因為在大學階段,人的理解力要強得多。因此一個學生在中小階段建立的那一點點優勢在大學很快就會喪失殆盡。書本的內容可以早學,可以晚學,但是錯過了成長的階段卻是無法補回來的。4““一個人想要在自己的領域做到世界一流,他周圍必須有非常多的一流人物。5““技術分為術和道兩種,具體的技術很容易從獨門絕技到普及,再到落伍,追求術的人一輩子工作都很辛苦。6““許多希望我介紹術的人都是希望走捷徑,但是真正做好一件事沒有捷徑,需要一萬小時的專業訓練和努力,累積一段時間才有感覺。7““在工程上簡單實用的方法是最好。8““先幫用戶解決80%的問題,再慢慢解決剩下的20%的問題。9““美國人總是傾向于用機器代替人工完成任務。雖然在短期需要做一些額外的工作,但是從長遠看可以節省很多時間和成本。10““一個正確的數學模型應當在形式上是簡單的。11““一個正確的模型可能一開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去。12““大量準確的數據對研發很重要。13““正確的模型也可能受噪音干擾,而顯得不準確,這時不應該用一種湊合的方法來彌補它,而是要找到噪音的根源,這也許能通往重大的發現。14““當我們遇到不確定性時,就要保留各種可能性。15““世界上最好的學者總是可以深入淺出把大道理講給外行聽,而不是故弄玄虛把簡單的問題復雜化。16謝謝觀看00100101010101000101111011101110111000110001100001000011000011111110010000100001100001111111001011100000011111100011100001100101010001100001110000110000001110000011111110000001000100001100001111111001011100000101110000000111010101000000111100010101010101010101000000000111000001010100010000110000110110100101110110001011010100001110100011000100001110000011110000111010101010101010101111100001000011000010111110110011000010101010101000010100101010101010101010101011110000011100001100000000111001000100001100001111011001011100010010101000110011100000101010000010100001100000000110000001010101010101010110010000110000111011100101010000101000100101010101000101111011101110111000110001100001000011000011111110011110001100001000011000011111110010111111100011100001100101010001100001110000110000001110000011111110000001101010001100001110000110001100000110110000000111010101000000111100010101010101010101000000000111000001010101111000001110000110000000011100100111010100001110100011000100001110000011110000111010101010101010101111101001110000110000000011100100000111001010101000010100101010101010101010101011110000011100001100000000111001001100000000110000001010101010000110101000110011100000101010000010100001100000000110000001010101010101010100101010101010110101010101010110011100100101010101000101111011101110111000110001100001000011000011111110010010101010101011010101010101011111001111100011100001100101010001100001110000110000001110000011111110000001001010101010101101010101010101100011110000000111010101000000111100010101010101010101000000000111000001010110011110000111010101010101010100101011010100001110100011000100001110000011110000111010101010101010101111101000111111100000011010100011000011111010101000010100101010101010101010101011110000011100001100000000111001010100000101000011000000001110101010101000110011100000101010000010100001100000000110000001010101010101010101010000010100101000000001111100000100100101010101000101111011101110111000110001100001000011000011111110010000100001100001111111001011100000011111100011100001100101010001100001110000110000001110000011111110000001000100001100001111111001011100000101110000000111010101000000111100010101010101010101000000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論