


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
搜索引擎的智能進化引發無限商機
§我們熟悉的搜索,使用起來并不容易我們每天出于好奇或者懶惰,或急不可待、或漫不經心地使用著搜索,在互聯網托起的信息世界中追尋著各自不同的線索和方向。根據comScore的統計,2009年互聯網平均每天會發生約44億次搜索,其中發生在中國的搜索次數占到10%左右,日均4.4億次。如果結合中國2.6億的搜索引擎用戶數來做一個簡單的估算,我們每天都會在互聯網上搜索1~2次。在我們經常使用的搜索工具的背后,是處理能力強大的搜索引擎。它時刻不停地去捕獲互聯網上公開出來的幾乎所有的網頁內容,對取回的內容進行分析、抽取、分類、標識等一系列處理,然而進行結構化組織,這一過程即索引的過程,完成之后的索引以搜索服務的形式提供給互聯網用戶使用。這一過程并不簡單,要知道,搜索引擎面對的是互聯網上超過2億3千多萬家的網站,以及這些網站所包含的一層又一層難以計數的網頁內容。但在大眾的眼里,搜索引擎僅僅是關于提問和解答的簡單工具。可是用戶使用搜索從來就不曾感覺到過簡單。我們經歷的搜索歷程往往是,第一次不假思索地輸入幾個關鍵詞給搜索引擎,很快發現沒有找到任何想要的結果;稍加思索后第二次輸入修正的關鍵詞,仍然對結果不甚滿意,于是接著繼續…。一位思想家曾精妙地說道:“任何一次認真搜索的結果只能是把一個問題變成兩個問題”。事實上有調查證明,我們平均搜索一個問題需要做5次查詢。最后我們發現,向搜索引擎提出一個恰當問題本身就是一個令人頭疼的問題。不過令人欣慰的是,對解決這個頭疼問題負有責任的永遠是搜索引擎。一直以來,有追求的搜索引擎工程師們努力的目標就是:搜索引擎應該理解人們提出的不算太好的問題,也應該給出不算太糟的答案。這也就意味著要讓搜索引擎“善解人意”。Google就不止一次對外宣稱,搜索的最終目標是理解人的“意思”,即人工智能。挑戰固然很大,然而這也正是搜索引擎存在、并且不斷進化的理由。§復雜的算法—一門平衡的藝術大約10年前我們還會驚嘆于搜索引擎能在零點幾秒的時間內反饋數十萬條結果。今天,讓我們對搜索引擎不太滿意的已不再是反饋結果條數太少,恰恰相反是太多了,尤其是當我們在第一頁結果當中沒有發現任何勉強令人滿意的答案后。按照對搜索用戶的統計,50%以上的用戶至少會點擊一次搜索結果列出的那些鏈接。但對搜索結果有翻頁動作的用戶,則不到10%。這證明我們是懶惰的、缺乏耐心的。但這也證明,對于特定用戶所提的特定問題,讓最具相關性的少量答案出現在最重要、最顯眼的位置,這對搜索引擎來說是至關重要的。為了讓用戶多一點滿意,搜索引擎一方面仍在源源不斷地搜集互聯網上更多、更新的數據,以免遺漏了對任何用戶而言具有價值的信息;另一方面,通過改善搜索引擎對用戶搜索請求的理解能力,并對數目繁多的搜索結果做更合理的排序,以便讓用戶心儀的少數答案出現在最重要、最顯眼的位置,這便是搜索算法要完成的核心任務。Google資深工程師阿密特.辛格將排序算法的難度形象地比喻為,讓一個機器人表演同時拋接200個瓶子的高難度雜技。Google早期主要是通過其核心算法PageRank(網頁級別)來幫助確定用戶查詢請求和網頁的相關程度,并因此贏得了用戶青睞。但如今搜索算法的復雜程度與當初的情況不可同日而語,PageRank已經是Google目前使用的200多種信號當中的一個而已。更為復雜的是,左右搜索引擎的并不僅僅是用戶的感受,那些作為信息源頭的網站,常常會想方設法欺騙搜索引擎,以使自己在搜索結果列表中得到一個更好的位置。為了防止這種對用戶不利的作弊行為,Google每年都會將其搜索算法調整幾百次。而且一些搜索引擎有時為顧及自己的利益,而對搜索算法施以“獨家秘方”。因而,當前的搜索進化已演變為用戶、搜索引擎和信息源頭三方之間的一場博弈,搜索引擎需要在三者之間取得平衡。因而理想的搜索算法并沒有什么恒定的標準,各家搜索引擎都有自己的算法配方,對外界諱莫如深。§距離完美還很遙遠1998年Google創始人拉里.佩奇向外界推介自己的搜索引擎時,還忍不住這樣舉例來證明自己的技術優勢:“如果你把‘AltaVista’(一款前輩搜索引擎的名稱)輸到另外一個搜索引擎中搜索,你能看到AltaVista的主頁嗎?很可能不會。而我們很好地解決了這個問題。”如今的搜索引擎都應該能解決好這個問題,否則就不算合格,因為這個問題太簡單了。盡管Google常常被當作丈量搜索引擎的標尺,但Google副總裁瑪麗薩.梅耶爾仍將今天的搜索引擎技術比作15、16世紀的生物學和物理學,她認為搜索引擎到目前為止只完成了10%。搜索引擎的進化還剛剛開始,這對剛剛加入、或即將加入搜索引擎競賽的后來者來說,無疑是一種鼓舞。這會讓他們有理由重拾信心,義無反顧地加入到搜索引擎的競爭行列。的確,我們今天使用的搜索距離完美還很遙遠。事實上,我們越是熟練地使用搜索,反而花在互聯網上探索的時間就越長。我們有理由去多憧憬一下搜索進化的未來。二.搜索引擎的智能進化今天,搜索領域的專家們正在熱烈探討著關于社區搜索、移動搜索、個性化搜索、實時搜索、跨語言搜索等諸多話題。如果將這些話題理解為各個不同發展方向的搜索技術分支,我們會很容易偏離基本方向—“搜索是關于提出問題和給出答案的科學”。我們最終會發現,各種努力都將殊途同歸,圍繞搜索引擎核心技術革新,始終都只有一個核心話題—如何讓搜索引擎更加智能。§從個性化走向智能一次午餐閑聊,我問幾位從事技術研發的同事:“你們是否知道自己平均每天Google了多少次?”他們回答,雖然經常會在登錄狀態下使用Google,但完全沒有注意到自己每天的Google次數,因為這樣的事情太習以為常了。于是我們進一步探討,“如果你發現某天自己的Google次數處于高峰狀態,是否可以推斷那一天你正處于趕工的重壓之下?”對這個問題大家有些遲疑。于是我修正了一下:“如果你某天Google次數驚人,幾乎可以說明你當天正為解決某個工作問題而焦頭爛額”,大家都笑了。是的,搜索引擎已經不僅僅是理解你的習慣而已了,它甚至已經開始理解你在特定時段的精神狀態和情緒了。如果某一天,當你過于頻繁地查詢一堆專業術語或者參考資料的時候,搜索引擎會在結果頁面的某個地方提示你要注意自己的健康狀況,并且向你推薦一些調節方法,你無需因為搜索引擎猜中了你的心思、切中了你的要害而感到恐懼。當然,前提是你預先授權搜索引擎為你提供這樣的服務。其實,個性化搜索所帶來的技術革新意義,主要還是圍繞讓搜索引擎更好地理解用戶提出的問題,或者說能更好地理解特定用戶的特定意圖。過去幾年里,搜索已經由“給我輸入的東西”轉變為“給我想要的東西”。個性化搜索有兩條具體的發展路線。一方面,搜索引擎記錄關于用戶行為線索的一切能夠獲得的數據。當這些數據多到足以描繪出該用戶的明顯蹤跡時,搜索引擎就能在一定程度上理解這個特定用戶的特定意圖。這時,搜索引擎就有能力實現上面提到過的場景。即使保守一點來看,當兩個個性迥異的用戶用相同的搜索行為查詢相同的問題時,搜索引擎可能會為他們給出兩個完全不同的答案。因為此時搜索引擎掌握了他們兩人的個性,因而可以因人而異地回答問題了。另一方面,搜索引擎通過一切的客戶端工具,直接收集用戶在特定場景下有關特定狀態的一切數據。例如正在同別人聊天的用戶查詢某個問題的時候,可能會因為剛才聊天時表達了某種意向而得到更合心意的答案;或者正在下載音樂的用戶查詢時可能會得到一份流行排行榜。有人將這種個性化搜索稱為情境搜索。然而無論哪條路線,隱私安全的問題都是至關重要的。搜索引擎必須在征得用戶同意的前提下,來發展個性化搜索。因為它對個人的影響實在是太大了。§社會化的影響讓搜索引擎更具智慧新聞聚合網站Digg是一家被稱為“用戶驅動的內容網站”。它也有自己的“頭版頭條”,頭版列表的每個標題旁都有一個數字,標識該篇報道得到用戶投票的數量。Digg的每一位用戶都可以為自己喜歡的報道透上一票。得到足夠多票數的報道就有可能享受到出現在頭版的那份榮耀。這個在Web2.0時代風靡一時的新聞社區網站,使得群體用戶可以施加對信息屬性的影響,例如重要性、關注度等。而在以前這些都是傳媒大亨、媒體主編們的特權。再看另一個例子-Twitter。在這個移動互聯網時代非常典型的微博社區里,作者受關注程度,或者說號召力,取決于他或她,甚至是它的跟隨者(Follows)的人數。這與在現實社會當中的影響力或者號召力是如此的相似,而且Twitter的規律卻比現實社會確定得多,因為它被精確地量化了。盡管上述兩個社區也都提供自己的搜索功能,而且Twitter搜索量驚人,已超過日均6億次,然而,更值得關注的是在這些社區里,由用戶群體自發催生出來的,關于信息內容的各種新的屬性信號,這是典型的社會性信號,社會性特征被帶到了信息世界里了。搜索引擎如果在捕獲信息的同時,獲得這些社會性信號,其價值將遠勝過類似PageRank計算出來的信號。實際上,這意味著搜索引擎開始理解社會了,而其最終的意義是,搜索引擎能為同樣具有社會性特征的用戶,提供更好的搜索結果。§移動搜索的革新意義關于移動搜索,工程師們最早的設計意圖就是為用戶提供隨時可以使用的搜索。但是圍繞隨時、隨地、隨身的搜索的話題,已經讓人感到索然無味。歸根結底,這些都是移動網絡與搜索引擎的簡單接合所帶來的變化。即便我們任何時候都可以使用搜索了,如果搜索結果不能令人滿意,一切也于事無補。是的,如果我們拋棄“移動的”搜索這樣片面的理解,我們會發現圍繞移動搜索要探究的命題始終還是關于:提出更好的問題,給出更好的答案。伏爾泰說過:“根據一個人提的問題而不是他給的答案來判斷他的為人”。然而根據統計,我們平均每次搜索只會鍵入2個左右的詞,作為用戶的我們是如此的懶惰,以至于我們所提問題包含的信息常常太少,而且還可能含義模糊,很難讓機器做出正確的判斷。有遠見一點的工程師已經在考慮如何將移動網絡的能力挖掘出來,以便幫助用戶向搜索引擎提供更多的輸入信號,最終幫助搜索引擎理解用戶。例如移動網絡帶來的定位能力,使得用戶每次搜索時不用任何額外動作,搜索引擎都將獲得一個重要的、同時足夠準確的搜索條件—位置。當你搜索一家加油站的時候,搜索引擎如果知道你所在位置,就可以把離你最近的一家加油站的位置顯示在搜索結果當中。更讓我著迷的是那些智能手機具有的日益強大的感知能力。如今,蘋果的iPhone4已經具備陀螺儀(感知三維姿態)、水平儀(感知二維姿態)、指南針(辨別方向)、距離遠近傳感器、速度傳感器、光亮度傳感器、震動傳感器、GPS(定位能力)、攝像頭(捕捉影像)等等能力。這些能力綜合起來幾乎可以模仿人類去感知周圍的世界了。試想,智能手機感知它的主人所處的,特定現實情境的各類信號,同時也感知主人本身的特定狀態的各類信號,通過移動網絡傳遞給搜索引擎,如此豐富的信號可以幫助搜索引擎做到善解人意。不用等到用戶主動查詢,搜索引擎就可以主動地、及時地給出各種必要的提示、幫助等等信息。三.搜索引擎的智能進化催生新的商業模式【數據來源于兩家公司的財報】從Google和Yahoo的,我們看到的不僅僅是兩條截然不同的典型企業的發展軌跡,這背后更大的含義在于,代表舊媒介規則的勢力正在讓位于新媒介規則下的新生代。運作于舊規則下的企業或許幾年前還在以巨人姿態傲視一切,但現在它們已完全跟不上新媒介規則下脫胎換骨的企業的步伐了。雖然同樣是開展廣告業務,但互聯網搜索的商業模式與門戶網站等按傳統媒介規則運作的公司完全不同。Google開展廣告業務的模式主要有兩種:針對廣告主的AdWords和針對中小網站或內容發布者的AdSence。對于AdWords,當用戶搜索某一關鍵詞時,搜索結果右側可能會出現相關性很強的一系列商品廣告鏈接。Google將關鍵詞出售給廣告主,按點擊量獲得廣告收入。而AdSence其實是一種廣告聯盟,如果一個網站與Google達成這一模式的合作,當有用戶訪問該網站時,就能夠看到Google的廣告,如果他們點擊這個廣告,Google就會和該網站分享這些點擊所獲得的收入。Google通過自動的廣告投放和運營系統,相對傳統模式極大地降低了廣告成本,精確的效果量化,讓廣告客戶可以了解到他們的投資回報率(ROI)。Google專注于這一商業模式近10年,其收入從2001年的8千6百多萬美元,一直到2009年達到236.5億美元。通常人們會將Google商業模式歸結為“售賣注意力”,我更傾向于將它歸結為“售賣相關性”,搜索引擎實現的廣告與用戶查詢結果的相關性才是成功的關鍵,這才是搜索引擎的核心商業價值。當你搜索“嬰兒用品”的時候,搜索結果旁邊只會出現一些實際的嬰兒商品廣告,而不會是別的。不會分散或擾亂你的注意力,甚至很可能給你帶來幫助。事實上,相關性的潛在價值可能催生出比廣告更加直接的商業模式。用戶搜索目標常常就是商品本身,或者更直接的干脆就是如何購買商品。據統計,人們提出帶有商業性質的問題的比例接近25%。同時,伴隨著互聯網電子商務的日漸成熟,出現搜索引擎和電子商務結合的商業模式也就自然而然了。我在這里探討的這一商業模式與電子商務網站自己提供的商品搜索服務完全不同。例如阿里巴巴的淘寶網也提供搜索,而且搜索對它越來越重要了,但這僅是局限于一個網站內部。面向互聯網的搜索引擎首先為用戶(同時也是潛在的消費者)解決信息流的問題,而后通過電子支付為消費者提供直接的在線商品交易的途徑,最后是線下的物流環節,這一般是傳統電子商務運營商去負責解決的問題。用戶在這一過程當中得到了一站式的體驗,不用在不同的網站間來回切換。而這種商業模式對商家的投資匯率更有優勢,它已經繞過了廣告的環節。當搜索引擎進化到更加智能的階段、變得善解人意的時候,當搜索引擎開始引導你的每一天的工作、生活、日常方方面面活動的時候,我們已經很難估量它的商業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 博圖SCL官方培訓
- 軟包電池外觀培訓
- 城市交通規劃合同管理論文咨詢重點基礎知識點
- 產品組裝技能培訓課件
- 【培訓課件】非處方藥市場推廣策略
- 配方出售保密協議書模板
- 《醫療設備監測的護理》課件
- 車輛無償借用合同協議
- 公司培訓計劃書
- 連鎖餐廳轉讓合同協議
- 第21課《己亥雜詩(其五)》教學課件【知識精研】統編版語文七年級下冊
- 消除艾滋病、梅毒和乙肝母嬰傳播項目工作制度及流程(模板)
- 2025屆南通市重點中學中考生物模擬試題含解析
- 人教版數學五年級下冊全冊大單元整體教學設計
- 2025年中國智慧公園行業發展現狀、市場前景、投資方向分析報告(智研咨詢發布)
- 鋼琴(安康職業技術學院)知到智慧樹章節測試課后答案2024年秋安康職業技術學院
- 第十單元 常見的酸、堿、鹽 檢測題(含答案)-2024-2025學年九年級化學人教版下冊
- DB32-T 4569-2023 發泡陶瓷保溫板 保溫系統應用技術規程
- 2025云南煙草專賣局(公司)高校畢業生招聘90人(非定向)高頻重點提升(共500題)附帶答案詳解
- 病理科危險品管理
- 2025年國家保密基本知識考試題庫及答案
評論
0/150
提交評論