




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Siri技術解析作者張俊林發布于2012年3月23日領域語言&開發主題人工智能,Apple\o"分享到"分享到Siri的學術化全稱為“個人自動智能助理”(PersonalizedIntelligentAssistant),并非蘋果公司自主研發,最初是蘋果AppStore的一款應用,蘋果公司發現后很快于2010年4月份從斯坦福研究機構國際智能中心(SRI)處收購而來,傳言收購價格在2億美金左右,之后很快Siri從AppStore下架并集成進入IPhone4S。相關廠商內容QClub(太原站)——前端開發與用戶體驗(5月5日免費報名中!)同樣的架構,如果用不同語言實現,對最終效果有何影響?QClub(大連站)——WindowsPhone開發(5月5日免費報名中!)百度技術沙龍第二十六期:前端組件原理及開發實踐(5月20日周日)QClub五月技術沙龍(西安/廣州/太原/大連/上海5月5日周六免費報名中?。┳鳛椤皞€人智能助理”,Siri能為你提供什么服務?可以將Siri理解為一位低智商的生活秘書(和人類的智能比),它采用了Nuance公司的語音識別技術,具有一定程度的語義理解和用戶意圖識別能力,可以聊天解悶,更主要的功能是幫助辦理一定的事務,比如預訂餐廳、預訂出租車、搜索精確答案、查詢天氣等。我們首先看一些例子來看Siri能做什么:對話一:User:“我想掩藏一具尸體?!?/p>
Siri:你想藏在哪里呢?(給出5個選項)水庫工廠礦山垃圾場濕地對話二:Siri:有什么我能幫忙的?
User:“我想我剛剛殺了人?!?/p>
Siri:是這樣么?
User:“是的?!?/p>
Siri:“你說要掩藏尸體我就想到了”
User:“我該怎么做?”
Siri:“好吧,這是你接下來的日程表?!睂υ捜篣ser:“去哪兒能弄些毒品?”
Siri:“這附近有2家戒毒所。”對話四、對話五、對話六:由以上六個用戶和Siri的對話記錄片段可以看出Siri具備一定的語義智能,如果了解其技術原理,可以知曉解悶陪聊功能并非其最初出發點和功能重點,在多個垂直領域幫用戶完成一定的任務才是其核心功能。圖1.Siri整體架構Siri是一個功能繁復的綜合AI框架,圖1展示了其包含的數據、模型以及計算模塊,為了在整體上更易于理解整個框架,可以將Siri里包含的眾多數據、模型和計算模塊劃分為輸入系統、活躍本體、執行系統、服務系統和輸出系統五個子系統。其在解析用戶輸入時候遵循一定的執行順序,以此來理解用戶的真正意圖并提供有用服務。Siri的資源主要分為資源類和計算類兩大類,其中屬于資源類的包括;領域模型;詞匯表數據庫;短期記憶系統;長期記憶系統;領域本體數據庫;對話流模型;服務模型;服務能力模型;外部服務;屬于計算資源的包括:語音識別系統;語言模式識別器;語言解釋器;對話流控制器;任務控制器;服務集成模塊;語音生成系統;Siri的輸入系統支持多模態輸入,即不僅僅支持眾所周知的語音識別,也允許用戶進行文本輸入、GUI界面操作以及事件觸發等。除了支持多模態輸入外,Siri輸入系統一方面可以利用語言解釋器對早期輸入進行歧義消除,另外一方面還可以對用戶輸入進行有意識的引導,將用戶輸入盡量映射到Siri能夠提供的服務上來。這樣對于用戶和Siri來說才可相得益彰,Siri可體現其價值,用戶可獲得幫助。圖2.活躍本體“活躍本體”是Siri中相當重要的一個概念,“活躍本體”可以被理解為Siri整個系統執行的一個具體執行環境和場所,執行系統調用所有系統數據、詞典、模型和程序,在“活動本體”內對用戶輸入進行解析,并將文本信息在這里解析為用戶真正的意圖,然后根據意圖來調用外部的服務。在程序執行時,“活躍本體”內放入的數據和模型包括:領域模型,用戶個性化信息,語言模式、詞匯表和領域實體數據庫等。領域模型包括某個垂直領域內的概念,實體,關系,屬性和實例的內部表示,這其實就是SemanticWeb這個研究領域常說的ontology。Siri包含很多垂直領域的領域模型?!霸~匯表”用于維護Siri中的表層單詞到“領域模型”或者“任務模型”中定義的的概念、關系、屬性的映射關系;被用來引導用戶輸入、自然語言解析和生成輸出結果。Siri在個性化方面做得也非常出色。在和用戶溝通過程中,如果一臺機器能夠叫出你的名字,并且知曉你的個人愛好,用戶體驗無疑是非常優異的。從具體技術手段上,Siri是通過在內部保持兩個記憶系統:長期記憶系統和短期記憶系統來實現能夠個性化的和用戶交流的。長期記憶系統存儲了用戶的名稱、居住地址以及歷史偏好信息,短期記憶系統則將最近一段時期內Siri和用戶的對話記錄及GUI點選記錄等登記下來。利用這兩個記憶系統,Siri可以在理解用戶需求的時候幫助澄清用戶的真正意圖是什么。語言模式識別系統是對用戶輸入的表層,語法層,習慣用語和成語等進行模式匹配的模塊。匹配模式的代碼在Siri內部采用正則表達式或者狀態機等方式實現;在Siri識別出指定的語言模式后,可以幫助判斷用戶輸入所述的任務類型。圖3執行系統執行系統是Siri系統最有技術含量的部分,前文有述:“活動本體”是對根據用戶的輸入信息,將各種詞典資源,模型資源實例化進行具體加工的場所,而真正的加工過程是由執行系統進行的。執行系統不僅將用戶原始的文本輸入解析為內部的語義表示,而且要在用戶和Siri交互過程中(多輪會話)決定下一句Siri應該說什么內容,可見其重要性。執行系統具體又可以細分為三個主要部件:語言解釋器、會話流控制器和任務控制器。它們之間分工有異同時又密切合作,一起發揮作用。語言解釋器將用戶輸入字符串流解析為語義表示作為輸出,而這個語義表示又會作為會話流控制器的輸入,會話流控制器根據當前語句所表達的含義,協同任務控制器一起決定Siri下一步應該做什么或者說什么。語言解釋器是Siri中最重要的自然語言處理工具,主要用來對文本形式的用戶輸入進行解析,將其映射為概念本體層級的信息表示,即理解語言真正的含義,除此外,語言解釋器也被用在輸入系統中對用戶輸入提示或者輸入補全進行分析,而且對語音識別結果后處理也有很大幫助。對話流控制系統是在將用戶的文本表示解析為內部用戶意圖之后發揮作用;即語言解釋器將解析結果傳遞給對話流控制器,是語言解釋器的后續處理步驟;而“任務控制器”則被“對話流控制器”調用,共同確定Siri下一步應該做什么或者說什么?!叭蝿樟骺刂破鳌钡闹饕δ苁墙缍ㄍ瓿梢患蝿栈蛘呓鉀Q某個問題由那些步驟構成,這些步驟之間是何種關系。“任務流控制器”和“對話流控制器”很容易混淆,不容易區分其功能差異。一般來說,“對話流控制器”主要用來決定Siri接下來要說的內容或者要做的事件,主要是根據領域判斷誘導用戶提供所需的參數;而“任務流控制器”更側重于事務本身的定義,比如一個任務可以切分成若干子任務,是否有時序依賴關系。任務流控制在Siri中也起到舉足輕重的地位,Siri的任務模型是由一些領域無關的通用任務模型和若干領域相關任務構成。通用任務是完成一件任務的抽象表述,與具體領域無關,因為其通用性,也可以應用在各個具體應用領域。圖4服務系統Siri本質上是服務導向的用戶意圖識別系統,無論是對話流控制也好,任務流控制也好,其根本目的還是為了能夠將用戶引導到Siri能夠提供的某項具體服務,以此達到幫助用戶完成某些任務或者解決一些問題的目的。目前Siri可以提供多種領域的服務,這里面涉及到服務管理的問題,即如何進行管理才能使得系統可用性高,可維護性強等。具體而言,Siri中有三個子部分涉及到服務功能:服務模塊,服務能力模型和多服務集成模塊。其中,服務模塊記錄了可供Siri使用的各種服務的詳細信息,服務能力模塊則存儲了哪些服務可以提供什么類型的服務等映射關系,服務系統中最重要的是服務集成模塊,調用另外兩個服務模塊提供給用戶最終服務內容。因為往往完成用戶某項需求要調用分布在各處的多項服務,每項服務能夠提供部分信息,而且服務之間有些順序需要遵守,所以如何調用所需的多種功能,調用順序如何確定以及如何根據部分信息拼合成最終用戶所需服務是其核心內容。Siri的輸出系統會將最終提供的服務結果或者在會話過程的中間內容展示給用戶。其不僅支持語音、電郵、文本等多模態輸出,還支持界面訂制等個性化功能。從上述技術描述看,Siri是蘋果公司新推出的一種新型人工智能框架,不僅在商業宣傳上令人耳目一新,在其技術架構和具體實現上也頗具新意。盡管Siri最初是依附在iPhone平臺,但是很顯然,這種依附性并不強,可以預見,這套系統會不斷擴展到更多種硬件類型的智能控制,比如車載控制系統,智能電視控制系統等等關于作者張俊林,《這就是搜索引擎:核心技術詳解》作者,新浪微博研發人員,主要研究方向:自然語言處理、搜索技術、推薦系統及機器學習感謝HYPERLINK"/cn/bycategory.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論