




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Type textType textType textHuang, Chu-Ren, and Shichag Wang. 2016. 眾包策略在語言資源建設中的應用 The Application of Crowdsourcing Strategy in Utilizing Language Resources. Chinese Journal of Language Policy and Planning (語言戰略研究). 206. Pre-publication version.PAGE28眾包策略在語言資源建設中的應用*黃居仁1 王世昌2作者簡介:黃居仁,男,香港理工大學人文學院中文及
2、雙語學系,香港理工大學中文應用與研究講座教授、香港人文學院院士兼院長、國際計算語言學委員會終身委員,主要研究方向為計算語言學、詞匯語義學、知識本體、語料庫語言學、語言典藏等。電子郵箱:churen.huang.hk;王世昌(通訊作者),男,山東大學文學院,助理研究員,主要研究方向為以詞匯為中心的語言資源、語言計量、語言比較等。電子郵箱:wang_shi_* 本文報告的相關研究工作得到了中華人民共和國香港特別行政區研究資助局優配研究金(GRF)立項項目(編號:PolyU544011)的支持。感謝匿名審稿專家和編輯部的寶貴意見。(1 香港理工大學中文及雙語學系 香港;2 山東大學文學院 山東 濟南
3、 250100)提要 眾包概念可從眾包策略、眾包策略的實現方法以及眾包策略的實現案例三個層面來理解。眾包策略的要義在于借助于互聯網以公開招募的形式匯聚眾智眾力解決問題。語言資源建設包括本體語言資源建設和派生語言資源建設兩項主要內容。眾包在語言資源建設中可用于語言數據的采集和加工,語言生活輿情調查,為語言資源建設提供資金和設施支持以及促進語言資源建設的宣傳推廣和語言資源建設社會力量的培育。眾包為多、快、好、省、可持續地進行語言資源建設提供了可能。土耳其機器人式的眾包在語言資源建設中有著廣泛的應用空間,是目前眾包策略運用于語言資源建設的最具操作性和最為成熟的實現方法。關鍵詞 眾包;眾包策略;眾包平
4、臺;語言資源;土耳其機器人The Application of Crowdsourcing Strategy in Language Resource ConstructionChu-Ren Huang and Wang ShichangAbstract The crowdsourcing concept can be understood from three perspecitives: the crowdsourcing strategy, the implement method of crowdsourcing strategy, and the implement case of
5、crowdsourcing strategy. The essence of crowdsourcing strategy is to unite the power of crowds to solve problems in the form of open call via Internet. Language resource construction consists of natural language resource construction and derived language resource construction. In language resource co
6、nstruction, crowdsourcing can be used to collect language data, to process language data, to conduct language-related surveys, to fund language resource construction, to promote the publicity of language resource construction, and to cultivate the social forces for language resource construction. Me
7、chanical Turk has extensive applications in language resource construction. It is the most mature and operational crowdsourcing impletment method which can be used in language resource construction at present.Key words crowdsourcing; crowdsourcing strategy; crowdsourcing platform; language resource;
8、 Mechanical Turk一、引言語言是一種資源已成為人們的共識。語言資源的重要性也日益引起學術界乃至全社會的強烈關注。語言資源只有經過合理的建設才能充分發揮其價值,滿足社會日益增長的語言資源需求,實現健康可持續發展。然而,傳統的語言資源建設方法有其力有不逮、力不從心之處,不能完全滿足語言資源建設的需求,這使語言資源建設陷入困境。眾包策略具有突破這一困境的力量,預示著語言資源建設的未來。語言資源主要包括本體資源(或稱自然語言資源)與派生資源(或稱衍生語言資源)兩大類(陳章太 2008;王鐵琨 2010;李宇明 2011,2012)。本體語言資源包括各種語言及其方言的語音系統、詞匯系統、語
9、法系統和文字符號系統;派生語言資源,概括地說,囊括了“語言知識、語言產品和語言技術”(李宇明 2011);具體地說,它至少包括“語言知識所轉化的語文辭書、教科書等文化產品及相關計算機軟件產品,以及字庫和基于語言信息處理的語言知識庫、語料庫、數據庫等”(王鐵琨 2010)。語言資源建設是一個由語言資源概念衍生出來的概念,主要包括本體語言資源建設和派生語言資源建設兩方面的內容。本體語言資源建設要從量與質兩方面著眼。在量的方面,一方面要維持現有本體語言資源,另一方面要積極培育新的本體語言資源,促進語言多樣性。在質的方面,則要不斷提升各種本體語言資源的活力,促使其健康及可持續發展。本體語言資源建設的具
10、體措施主要包括推廣、保護、保存、培育和規范等。此外,我們也應該看到語言資源監測(王鐵琨等 2011;崔樂 2011;陳敏 2010)以及語言普查工作(范俊軍、肖自輝 2010;李宇明 2008)在本體語言資源建設中也發揮著重要的作用,它能為具體的本體語言資源建設決策提供信息支持。派生語言資源種類繁多、蔚為大觀。派生語言資源建設包括了語言知識生產、語言產品建造以及語言技術研發等豐富的內容。正因此,派生語言資源建設大有可為。比較而言,本體語言資源建設更側重于語言規劃、語言戰略和語言政策的籌劃與實踐,而派生語言資源建設則更側重于對語言的文化價值、工具價值以及市場價值的開發與利用。本體語言資源建設是派
11、生語言資源建設的基礎,派生語言資源建設反過來又能促進本體語言資源建設,兩者互為補充和促進,共同構成了語言資源建設的內容。語言資源建設有兩種基本模式,即自上而下模式和自下而上模式。自上而下模式一般由政府、機構或企業發起、資助、計劃并主導,同時負責組織人員力量,配置資金設備,協調分工協作并監督進度、控制質量。在這種模式中幾乎每一件事情都是自上而下協調安排的。而自下而上模式則主要依靠社會大眾的力量;在一定的條件下,社會大眾的力量能夠匯聚起來,進而通過自我組織的方式進行協作凝結成強大的生產力進行語言資源建設。在這種模式中幾乎每件事都是自下而上協調安排的。自上而下模式在面對高時間空間復雜度語言資源建設工
12、程時的力有不逮、力不從心,語言資源建設者們早已深有體會,而對其解決之道,即運用社會大眾的力量,也已經有所認識。眾包正是在語言資源建設中運用社會大眾力量的有效途徑。曹志耘(2015)在論述中國語言資源保護工程(“語保工程”)的定位、目標和任務時曾言及語保工程涉及全中國56個民族、135種語言、十大漢語方言、難以計數的方言土語、2000多個縣,工程規模浩大,任務艱巨而緊迫;然而,中國“從事語言資源調查保護的專業力量極為有限”,“與保護需求相比可謂杯水車薪,從新培養則是遠水救不了近火”;“調查保護經費完全依靠政府投入,金額有限,也難以保證長期持續支持”;“語言資源保護工作是在和時間賽跑,但由于各方面
13、條件的限制,調查保護的速度遠遠趕不上語言資源衰亡和流失的速度”。對此他提出的對策是社會化,“面向社會開放,吸引社會大眾參與”,“如能發動廣大社會力量參與和分擔語保工程任務,則可從根本上解決人力不足、經費匱乏、時間緊迫等問題”。這與我們所說的自下而上模式即眾包模式不謀而合。語保工程屬于本體語言資源建設范疇,而在派生語言資源建設中也存在同樣的問題,也要運用同樣的對策。眾包一詞由英文單詞crowdsourcing意譯而來,它由Jeff Howe和Mark Robinson于2006年創制;從詞源的角度看,crowdsourcing是crowd和outsourcing的混成詞,它字面的意思是將任務外包
14、給大眾(to outsource tasks to the crowd)(Howe 2006, 2009)。眾包的定義眾說紛紜,但各種定義基本都不會偏離Jeff Howe題為“Crowdsourcing: A Definition”的博客文章中的基本定義:“眾包是將傳統上由指定人員(通常是雇員)承擔的工作以公開招募的形式外包到一群不確定的人的行為”。而在一則名為“Crowdsourcing: The Trailer”的視頻短片中,他口述了此定義并在其末尾加上了“通常使用互聯網”的表述。我們主張按照從抽象到具體的順序將眾包區分為三個層次來理解:1)眾包策略,2)眾包策略實現方法,3)眾包策略實現
15、案例。只有對這三個層次做明確的區分才能將問題說得比較清楚,而將它們雜糅則會導致概念上的混亂。從最抽象的層級上講,眾包是一種問題求解策略。眾包策略的要義在于借助互聯網以公開招募的形式匯聚眾智眾力解決問題。這種抽象的策略具有極為廣泛的適用性。而將這樣一種抽象的策略應用于具體的問題和任務當中,便有了眾包策略的實現方法的問題,即將眾包策略運用到具體的問題和任務中的方式方法。因為現實中具體的任務和問題是多種多樣的,有著不同的性質和要求,勢必在其中運用眾包策略的方式方法就會有所不同。目前已經存在一些較為成熟的眾包策略實現方法,例如開源(open source)(Raymond 1998)、維基(wiki)
16、(Tapscott & Williams 2006)、土耳其機器人(Mechanical Turk)(Mason & Suri 2012)、有目的的游戲(games with a purpose)(von Ahn 2006)、雙重目的任務(dual-purpose work)(Quinn & Bederson 2009,2011;von Ahn etal. 2008)等等。眾包策略的實現方法體現出高度的創造性,新的實現方法還將不斷出現。各種不同的眾包策略實現方法都應按照各自特點去具體地定義和專門地研究。眾包策略的實現案例則指的是以一定的方式方法運用眾包策略對一個問題或任務的解決或完成。眾包策略
17、的實現案例中貫穿著眾包策略的要義,體現著一定的眾包策略的實現方法。我們所說的眾包一般指眾包策略。我們在定義中強調互聯網的作用,但也有人認為只要是以公開招募的形式匯聚眾智眾力解決問題即可稱為眾包。可以以是否使用互聯網為標準區分現代眾包與傳統眾包。如果不做特別說明,眾包指的是現代眾包。互聯網是現代眾包的一個必備要件:只有通過互聯網這樣一個覆蓋面廣、傳輸速度快、通信成本低的通信與數據傳輸媒介以及便捷的支付渠道,公開招募才能得以便捷、經濟地實施,眾智眾力才能得以便捷、經濟地匯聚。互聯網使眾包達到了前所未有的廣度、深度和規模。現代眾包的很多應用,是傳統眾包所難以實現的。眾包對互聯網的運用,催生了眾包平臺
18、這一概念。眾包平臺指的是供眾包發起者創建、發布、管理眾包任務及任務參與者參與眾包任務的網絡服務平臺。眾包平臺有專用、通用之分,私有、公共之別。專用平臺是實現運用眾包策略解決某一類問題的平臺;通用平臺則用來解決各種不同類型的問題。私有平臺是眾包任務發布者建立并供自己創建、發布、管理眾包任務的平臺;公共平臺則允許公眾創建、發布、管理眾包任務。眾包平臺通過用戶接口與眾包發起者和任務參與者進行交互。用戶接口可以以網絡站點、PC客戶端、移動客戶端以及可嵌入網頁的在線應用等形式來實現。有些眾包平臺還提供應用編程接口(API),用戶可以通過編程的方式與平臺交互,從而實現一定的自動化。眾包可以從不同的角度進行
19、分類。一切的眾包活動都依賴于眾人的貢獻,通過聚合眾人的貢獻形成最終的解決方案。可以以聚合方式為標準對眾包進行分類。來自眾人的貢獻可以通過兩種基本且相對的方式進行聚合。一方面,可以對眾人的貢獻進行集成性聚合,即將眾人的貢獻集成起來形成一個完整的解決方案,我們將這種眾包稱為集成性眾包(integrative crowdsourcing)(Geiger etal. 2011; Schenk & Guittard 2011)。集成性眾包的一個典型應用是構造數據庫或信息庫;首先從眾人那里收集各種數據或信息,然后將它們集成為一個大的數據庫或信息庫。另一方面,可以對眾人的貢獻進行選擇性聚合,首先從眾人那里收
20、集各種不同的解決方案,然后從中選取最優秀的或最滿意的解決方案;我們將此種眾包稱為選擇性眾包(selective crowdsourcing)(Geiger etal. 2011;Schenk & Guittard 2011)。選擇性眾包可以用來尋找問題的候選解決方案,它暗含著贏者通吃的機制,只有勝出的解決方案才能獲得獎賞(Schenk & Guittard 2011)。選擇性眾包特別適用于創意型的任務,徽標設計、廣告語設計、工業設計等等都是典型的例子。一個任務究竟適用集成性眾包還是選擇性眾包,取決于其自身的特性。此外還有一些其它的分類方法。Howe(2009:280)列出了四種主要的眾包類型:
21、1)大眾智慧或群體智能(crowd wisdom or collective intelligence),2)大眾創造(crowd creation),3)大眾投票(crowd voting),4)眾籌(crowdfunding)。Geiger etal.(2011)對此分類評論到:“然而,眾包是一個復雜的現象,經常涉及到這些類別的組合,以至于有時難以區分”。Howe在提出此分類時并未言明分類標準,他似乎是根據眾人貢獻的內容進行分類的。在大眾智慧中,眾人貢獻的是知識、經驗以及思考、分析問題的能力;在大眾創造中,眾人貢獻的是生產力;在大眾投票中,眾人貢獻的是辨別能力及情感傾向;在眾籌中,眾人貢獻
22、的是財力。Wang etal.(2013)從眾包任務的激勵因素角度對眾包進行分類,區分了三類眾包。第一類稱為有意圖的游戲(games with a purpose),它的主要激勵因素是樂趣。第二類稱為亞馬遜土耳其機器人(Amazon Mechanical Turk),它的主要激勵因素是經濟利益。第三類稱為眾人的智慧(wisdom of the crowds),它的主要激勵因素是利他主義和間接利益。二、眾包建設語言資源眾包在本體語言資源建設和派生語言資源建設中有著廣泛的適用性,并能發揮一系列重要作用,主要有:1)語言數據采集;2)語言數據加工;3)語言生活輿情調查;4)為語言資源建設提供資金及設
23、施支持;5)促進語言資源建設的宣傳和推廣;6)促進語言資源建設社會力量的培育。其中,前四項是基礎作用,后兩項是附加作用。語言數據采集是眾包在語言資源建設中的一個基本應用。在很多的語言資源建設項目中,語言數據采集是基礎任務,并且是難點。互聯網、個人電腦和智能手機的普及為語言數據采集提供了極大的便利,大眾能夠方便地以多媒體的形式采集語言數據,而通過互聯網將采集到的數據上傳數據庫也是十分地便捷;這些為眾包語言數據收集帶來了無限可能。語言數據加工是眾包在語言資源建設中的另一個基本應用。采集到的原始語言數據只有經過加工才能夠充分地顯現出價值,便于后續開發利用。典型的語言數據加工任務包括分類、標注、轉寫、
24、翻譯等。考慮到效率及成本問題,如果語言數據加工任務能利用計算機自動完成,則一般不使用人工,但是絕大多數語言數據加工任務尚不能完全利用計算機自動完成,需要依靠人機結合的方式,利用計算機粗處理然后再進行人工校對;而有些語言數據加工任務,由于尚無自動工具可以利用,只能依靠人工。對人而言,語言數據加工工作往往是極為枯燥、乏味且機械的苦差,做起來往往效率低下,要提高速度唯有增加人手,而在傳統的自上而下模式中,增加人手意味著高昂的經費支出,不增加人手則意味著漫長的工期。這種兩難境地是自上而下模式經常要面對的困境,這使它往往無力招架大規模語言資源建設項目。眾包所帶來的大規模、高靈活度、低成本的人力資源,可以
25、有效打破這一困境。語言生活輿情調查也是眾包在語言資源建設中的重要應用。利用眾包的方法發起在線問卷調查及大眾投票,可以方便快捷地收集有關語言生活的輿情信息。大到語言政策、語言認同方面的調查,小到大眾對一具體語言現象的觀點等等,都可以通過眾包的方法去實施和獲取。眾包還可以為語言資源建設提供資金及設施支持,這主要通過眾籌的方式得以實現。在組織和發起語言資源建設的眾包活動時,必然會涉及到對動員大眾參與語言資源建設的宣傳,而大眾實際參與語言資源建設的實踐,又能加深他們對語言資源建設的理解,甚至激發起他們參與語言資源建設的熱情,并自覺或不自覺地成為語言資源建設的宣傳員,所以眾包也能促進語言資源建設的宣傳和
26、推廣。大眾參與語言資源建設的過程,也是接受語言資源建設教育和培訓的過程,有可能使其中的一部分人轉變為支持語言資源建設的穩定的社會力量;而圍繞著某些語言資源建設眾包平臺所形成的社區,更是能以自我組織的方式將語言資源建設的社會力量凝聚起來。所以眾包在語言資源建設中的應用也有助于培育語言資源建設的社會力量。眾包雖屬新興事物,但已有很多用于語言資源建設的成功案例,舉幾例供大家參考。維基式眾包用于語言資源建設已結出累累碩果。大家比較熟悉的維基百科(),可以說是人類有史以來最雄心勃勃的多語言百科詞典。另外,維基詞典()則是一部與維基百科相配套的多語言詞典,以為所有語言創建詞典為目標。文泉驛()則以維基式眾
27、包創建了一整套開源、自由、免費的高質量漢字字庫。鄉音苑()正在用維基式眾包創建漢語方言語音故事庫。土耳其機器人式眾包在語言資源建設中也有積極的應用,主要是用于語言數據的收集和加工。2010年NAACL舉辦了一個以“運用亞馬遜土耳其機器人創建語音及語言數據”(“Creating Speech and Language Data With Amazons Mechanical Turk”)為主題的專題研討會,會議論文集收錄了35篇文章,內容涉及到收集加工自然語言處理技術所需語言數據的方方面面,相關概要可見Callison-Burch & Dredze(2010)。Chen & Kan(2013)用
28、土耳其機器人式眾包創建了一個中英雙語的短信(SMS)語料庫。土耳其機器人式眾包在語言資源建設中的另一個重要應用是執行語言學實驗(Kuperman etal. 2012;Enochson & Culbertson 2015;Crump etal. 2013;Mason & Suri 2012)。我們也在運用土耳其機器人式眾包執行漢語語言學實驗方面做了探索,運用Crowdflower平臺進行了漢語復合詞語義透明度評估實驗以及漢語分詞實驗方面的成功嘗試,驗證了在國際土耳其機器人平臺上執行漢語語言學實驗的可行性,提出了總體框架并創建了語義透明度數據集SemTransCNC 1.0和人工分詞數據集Wor
29、dSegCHC 1.0(Wang etal. 2015a,2015b,2014a,2014b)。其它的眾包策略實現方法在語言資源建設中的應用也值得關注。例如雙重目的任務式眾包可以被巧妙地用于語言數據收集。這方面最為著名的例子可能非reCAPTCHA(von Ahn etal. 2008)莫屬。CAPTCHA的意思是“用于區分計算機和人類的全自動公共圖靈測試”(“Completely Automated Public Turing test to tell Computers and Humans Apart”),它要求用戶去識別一些圖片中的扭曲的文字,這種任務對人來說很簡單,但是對機器人(計算
30、機程序)來說則十分困難,由此它可以將人和機器人區分開來。大量網站運用CAPTCHA技術來防止惡意訪問。據估計,在世界范圍內人們每天都會有上億次的CAPTCHA鍵入,每次鍵入都只需幾秒鐘的時間,但是累積起來,這相當于每天十數萬小時的人工。這是十分可觀的人類智力資源,它做了計算機尚不能做好的扭曲字符識別任務,如不加以利用實屬浪費。于是reCAPTCHA被設計了出來,將這種人類智力資源用于輔助紙質書籍的數字化。Google圖書項目(),正在利用這項技術幫助他們建設世界最大的數字圖書館。眾包用于語言資源建設所帶來的好處可以用“多、快、好、省、可持續”來概括。“多”有兩個含義,一個含義是規模大,另一個含
31、義是多樣性高。“快”指語言建設速度快。“好”是指語言資源建設的質量好。“省”指的是節省資金。“可持續”包括兩個方面:一方面,眾包使得語言資源可以以一種不間斷的生長和進化的方式進行建設;另一方面,眾包平臺或眾包任務所培育起來的社區力量,也顯現出世代傳承、生生不息的生命力,這可以使語言資源建設獲得源源不斷的動力。三、土耳其機器人雖然很多眾包實現方法在語言資源建設中都有用武之地,但從目前來看土耳其機器人(Mechanical Turk,簡寫為MTurk)具有特殊的重要性。當前,關于眾包在語言資源建設中的應用往往以土耳其機器人作為范式。它可以用于語言材料的采集、語言材料的標注、執行語言學實驗以及語言生
32、活輿情調查等等,在語言資源建設中有著廣泛應用空間。與其它眾包實現方法,例如開源、維基、雙重目的任務等相比較,它在創建和運作眾包任務方面十分簡便易行,是目前眾包策略運用于語言資源建設的最具操作性的方法。另一方面,它用于語言資源建設的相關研究和實踐較多,人們已經積累了相當多的知識、經驗與技術,這使它成為了眾包策略用于語言資源建設的最為成熟的實現方法。土耳其機器人是一種以經濟利益為主要激勵因素促使大眾參與任務的一種眾包策略的實現方法。它以土耳其機器人平臺作為基礎,土耳其機器人平臺可以看做一個24小時在線、靈活、按需分配的人力資源市場。在土耳其機器人平臺上有兩類用戶,一類是眾包任務的發起者(reque
33、ster),我們稱之為“雇主”;另一類是眾包任務的參與者(worker),我們稱之為“工人”。雇主在平臺上創建和發起眾包任務,并設定酬金及參與條件,符合參與條件的工人可以在線參與任務,并根據完成任務的質量及數量獲得酬金(平臺會從雇主那里收取一定比例的服務費用)。通常一個眾包任務會按照雇主的設定被平臺自動分解為一系列同質且基本等量的“微任務”,這個過程稱為任務分解(microtasking)。被分解出來的小任務按慣例被稱作“人類智能任務”(human intelligence task),英文縮寫為HIT。例如,有10,000個句子需要標注,我們可以將其分解為1000個每個10句的微任務(HIT
34、)。任務通過分解化整為零,每個微任務只需要很短的時間便能完成,不同的微任務可以被不同的工人并行完成,所有微任務的結果整合起來便構成了對整個任務的解決。每個工人可以完成一個或多個微任務,酬金以其完成的微任務的質量和數量計算。每個微任務也可以由多個工人完成,從而可以通過冗余濾除噪音,提高數據質量。由任務分解這種機制來看,土耳其機器人式的眾包往往是集成性眾包,但是,它也可以實現選擇性眾包。土耳其機器人式眾包以土耳其機器人平臺為基礎。抽象地看,土耳其機器人平臺由相互聯系、相互協作的五大部分構成:1)由平臺上所有的雇主所構成的雇主池(requester pool);2)由平臺上所有的工人所構成的工人池(
35、worker pool);3)由平臺上所有的正在進行的眾包任務所構成的任務池(task pool);4)用于實現用戶管理、任務管理、質量控制、財務管理等的服務機構;5)平臺與用戶交互的界面,包括用戶界面及應用編程界面(API)。所有的土耳其機器人平臺的實現都要包含這些部分。四、眾包的技術需求及在中文環境使用眾包目前來看,重要的土耳其機器人平臺實現有兩個,即亞馬遜土耳其機器人(Amazons Mechanical Turk,簡寫為AMT,)和Crowdflower()。亞馬遜土耳其機器人出現于2005年,是我們知道的世界上首個土耳其機器人平臺的實現,由它開創的眾包策略的實現方法便相應地被稱做了土
36、耳其機器人。Crowdflower是另外一個著名的土耳其機器人平臺實現。雖然它們都是典型的土耳其機器人平臺,但是它們也有顯著差異。先從平臺用戶構成(雇主池、工人池)上看。AMT不支持美國以外的人申請注冊雇主賬戶,而Crowdflower并無此限制。AMT對雇主賬戶的限制決定了,美國之外的人若想在AMT上創建和發布任務只能通過某種中介的方式來間接實現。AMT僅維持一個平臺本地的工人池,Crowdflower除擁有平臺本地工人池外,還可以將任務散布到其它數十個外部渠道平臺上,從而也可以使用外部渠道平臺的工人池。AMT曾經是Crowdflower的渠道平臺之一,可以說Crowdflower有著比AM
37、T更大的工人池。再從質量控制方面看。AMT支持一種稱為“資格證”(qualification)的質量控制方式,雇主可以發布資格測試,工人一旦通過了資格測試便獲得了某種資格證,雇主在發布任務的時候可以限定只有具備某種資格證的人才能參與任務;Crowdflower并不支持這種機制。AMT允許雇主手動駁回工人提交的任務完成結果并且不為駁回的結果支付酬金,而Crowdflower并不支持這一機制,但它允許任務自動阻止工人提交一些不符合條件的任務完成結果(稱為數據驗證,data validation)。Crowdflower支持一種稱為“測試問題”(test question)的質量控制機制,AMT則不
38、支持這種機制。測試問題是一些已知正確答案的問題,將它們插入到工人待處理的任務中,可以通過工人在這些問題上的表現計算工人的正確率,從而屏蔽掉一些低質量的工人的數據。同時,工人在測試問題上出現錯誤后,能及時地獲知工人出錯的原因,接受實時培訓,從而提升接下來的表現。這兩個平臺都設在美國,但是它們的用戶遍布全球,可以看做是國際平臺。據我們所知,中國尚沒有本土的土耳其機器人平臺。以豬八戒網()為代表的一些中國本土威客平臺,也可以算做眾包平臺。但是它們并不是土耳其機器人平臺。它們實際上支持傳統的外包模式以及新興的選擇性眾包模式兩種交易模式,是混合平臺而不是純粹的眾包平臺。土耳其機器人以集成性眾包為典型特征
39、,支持任務分解機制(microtasking)以及各種機巧的質量控制機制,這些都是中國本土威客平臺所不具備的。威客平臺也可以通過某些變通的方式用于語言資源建設,但是在便利性與可靠性上都難與土耳其機器人平臺比肩。目前,若想在漢語語言資源建設中運用土耳其機器人式眾包,要么自己創建一個中國本土的土耳其機器人平臺,要么使用現有的國際土耳其機器人平臺。相比而言,后者更有可行性,雖然搭建一個土耳其機器人平臺并不難,難的是建立起其用戶基礎使其成為一個可以用的平臺。我們期待一個實際可用的本土土耳其機器人平臺的出現,但在此之前,我們可以先嘗試使用國際土耳其機人器平臺。國際平臺實際上也有一些本土平臺所不具備的優勢
40、,例如可以收集雙語乃至多語數據,可以收集全球華語數據等。根據我們所做過的一些實驗(Wang 2015;Wang etal. 2015a,2015b,2014a,2014b),我們發現Crowdflower是一個漢語語言資源建設的可行平臺(至少在執行語言學實驗、語言材料標注方面是可行的),而就目前而言,AMT還不是一個漢語語言資源建設的可行平臺。但是在國際土耳其機器人平臺上運行漢語語言資源建設任務有一些特殊的問題需要注意,例如要對工人是否為漢語母語者進行驗證、一個任務要實現簡體和繁體漢字兩種界面等。在國際土耳其機器人平臺上執行漢語語言資源建設任務要驗證工人是否為漢語母語者。漢語語言資源建設任務往
41、往需要從漢語母語者那里收集數據,而在像Crowdflower這種國際平臺上,漢語母語者只占工人池的極少的一部分,我們的實驗表明,如不做母語者驗證,我們所收到的數據絕大部分會是非母語者提交的無用數據(Wang etal. 2014b)。對漢語母語者進行篩選,可采取下列三項措施。其一,可以根據工人來源地進行粗粒度篩選。Crowdflower允許為任務設置地區白名單,只允許來自列入白名單的國家和地區的工人參與任務。根據漢語流行程度差異,世界上的國家和地區可以分為主要漢語區、次要漢語區和非漢語區三類。主要漢語區包括中國大陸、臺灣、香港、澳門、新加坡等漢語母語者占人口絕大多數的國家和地區。次要漢語區指有
42、相當數量漢語母語者分布的地區,例如印度尼西亞、馬來西亞、美國、加拿大、新西蘭等。非漢語區指極少有漢語母語者分布的地區,例如印度、阿拉伯國家等。根據工人來源地進行粗粒度篩選就是盡量只開放主要漢語區,在主要漢語區不能滿足要求時慎重開啟次要漢語區,不開放非漢語區。其二、通過漢語知識測試來細粒度地驗證工人是否為漢語母語者。只根據工人來源地進行粗粒度的篩選往往還不能滿足要求,尤其是在開放次要漢語區以后。我們可以進一步地通過漢語知識測試來驗證工人是否為漢語母語者。用于漢語知識測試的題目必須要滿足三個基本條件:1)它們對漢語母語者而言十分簡單,幾乎不會答錯;2)它們對非漢語母語者而言十分困難,幾乎不會答對;
43、3)它們應當是開放型問題,盡量排除猜對的可能性。Crowdflower提供的驗證機制(validation)以及條件顯示機制,使我們可以限制那些未通過測試的工人看到后續的任務或提交數據,從而將他們屏蔽在外。有很多符合要求的測試題目可供選擇,根據我們的實驗(Wang 2015;Wang etal. 2015a,2015b,2014a,2014b),漢字識別題便是其中十分簡便有效的一種。漢字識別題提供給工人一張含有漢字的圖片,然后讓工人識別出其中的漢字并鍵入到文本框中。我們可以根據字頻來控制題目難度,也可以采用扭曲的字形來防止光學字符識別(OCR)。一般情況下,使用中等偏高頻率的漢字為好。同時,因
44、為世界范圍內簡體繁體兩套漢字體系并存,應當選用兩個體系交集部分的漢字。這類漢字識別題不僅可以用來區分漢語母語者與非母語者,還可以用來屏蔽機器人。要對漢字識別題設置驗證條件來判斷工人是否鍵入了正確的漢字,同時要將其設為強制(required),意思是工人如不能答對將無法提交數據。當然,我們還可以采用一些封閉型的、不設置驗證條件的、非強制的漢語知識測試題目以便于我們對接收到的數據進行進一步的篩選和清洗。其三、我們不妨在任務中設置一個工人語言背景調查。這個調查可以直接詢問工人是否為漢語母語者,如果不是的話他的母語是什么,學習了多長時間的漢語等等,以方便我們對收集到的數據做進一步的篩選。在國際土耳其機
45、器人平臺上執行漢語語言資源建設任務還應實現簡體繁體兩套任務界面。考慮到世界上有簡體繁體兩套漢字體系,任務應該提供簡體和繁體兩套任務界面以供不同的工人進行選擇。可以在任務的開始設置一個問題詢問工人習慣使用簡體漢字還是繁體漢字。然后根據用戶的選擇,利用Crowdflower提供的條件顯示機制來顯示相應界面。五、案例研究實施心理語言學實驗或問卷調查(Mason & Suri 2012;Behrend etal. 2011)是土耳其機器人在創建語言資源中的重要應用。本案例將展示如何利用土耳其機器人實施心理語言學實驗創建漢語人工分詞數據集(Wang etal. 2015a)。漢語與英語等語言不同,在其文
46、字記錄形式中,詞與詞之間缺乏空格等形式標記。因此,在漢語中什么是詞的問題顯得尤為撲朔迷離。分詞就是將記錄漢語的短語、句子、篇章等由字串轉變為詞串的一個過程。基于直覺的人工分詞數據可用來探究人的詞感;詞的定義應該與詞感相一致,因而詞感便成了研究什么是詞的問題的一個突破口(Hoosain 1992;胡明揚 1999;王洪君 2006;王立 2003)。基于直覺的人工分詞數據通常通過問卷調查或實驗室實驗的方法來獲取,但它們往往存在效率低、花費高、參與者多樣性差、難以獲得大規模樣本等問題。眾包策略的運用有助于克服這些問題。(一)眾包任務的設計我們依據研究目的從語料庫中選取了152個句子,選取標準詳見W
47、ang etal.(2015a)。不計標點,這些句子的最小長度為20字,最大長度為46字,平均長度為32.54字(SD=5.46),總長度為4,946字。因為眾包任務不宜過長,所以這些句子被隨機均分為8組,每組有19個句子。我們在Crowdflower平臺上為每組句子各創建一個眾包任務,共創建了8個任務。每個眾包任務的核心是一個問卷。問卷有簡體和繁體兩種版本供參與者選擇。問卷包括5部分:1)標題,2)說明,3)身份信息問題,4)漢語知識問題,5)分詞任務。第3部分身份信息問題,詢問參與者其性別、年齡、教育程度及電子郵箱(可選)等信息。第4部分漢語知識問題用4個簡單的問題測試參與者是否為漢語語者
48、;前兩個問題是開放型的漢字識別問題,每個問題給出一張含有一個簡單漢字的圖片,要求參與者識別出圖片中的漢字并將其鍵入到文本框中;第3個問題是一個封閉型的同音字識別問題,問題中給出一個漢字,要求參與者在選項所列的10個漢字中找出與其同音的一個;第4個問題是封閉型的反義字識別問題,要求參與者在選項所列的10個漢字中找出與給定漢字意思相反的一個。8個任務的問卷的第4部分使用相同的問題類型,但使用不同的問題實例。第5部分分詞任務呈現給參與者19個句子并要求他們在識別出的詞的界限處插入分詞符號(“/”);我們也要求參與者在標點符號及每句最后一個字后插入分詞符號;參與者被告知他們只要按照直覺分詞即可,無須關
49、心對錯。我們在創建眾包任務時使用了下列參數:1)對于每個任務,每個工人賬號只能提交一個回饋(response,完成問卷并提交數據便構成了一個回饋);2)對于每個任務,每個IP地址只能提交一個回饋;3)只接受來自下列區域的回饋:中國大陸、香港、澳門、臺灣、新加坡、印度尼西亞、馬來西亞、泰國、澳大利亞、加拿大、德國、美國及新西蘭;4)我們為每個回饋支付0.25美元(約合1.7元人民幣)。我們使用了下列質量控制措施來保證數據質量:1)第4部分漢語知識問題用來屏蔽非漢語語者(包括機器人);2)第5部分分詞任務將不可見,除非參與者正確回答了第4部分的前兩個問題;3)參與者所提交的分詞答案要符合規定格式:
50、a)分詞答案只能由原始句子加分詞符號構成,每個字或標點后只能有0個或1個分詞符號;b)分詞答案中每個標點符號后必須有一個分詞符號;c)分詞答案要以一個分詞符號結束;4)除非滿足上述所有條件否則數據不能提交;5)數據收集結束后將進行數據清洗以濾除無效回饋。(二)眾包任務的執行我們首先運行了一個小的測試任務來驗證任務設計的正確性,其結果顯示任務設計可行。然后我們啟動了第1個任務,使其單獨運行了大約兩天時間以進一步測試任務設計。在我們確信任務設計無誤且能夠正常運行后,我們啟動了其余的7個任務,使8個任務同時運行。我們的目標是每個任務收集到200個回饋;在一開始的時候速度很快,8個任務都在最初的3到6
51、天內收集到了100個回饋;隨后速度變得越來越慢,最終我們用了約1.3個月的時間達到了目標。Crowdflower畢竟不是中國本土平臺,平臺上漢語語者有限,這種速度是可以理解的。(三)數據清洗及結果8個任務都分別收集到了200個回饋,但并非每個回饋都是有效的。與傳統的實驗室環境相比,眾包環境的噪音水平偏高,所以在對數據進行分析之前,必須進行數據清洗以濾除無效回饋。一個回饋如果具有下列特征的一項或多項將被判為無效:1)語言知識問題的4個問題未能全部答對;2)一個或多個句子的分詞結果詞長全部為1字;3)一個或多個詞的詞長長于7字;4)完成回饋所用的時間短于5分鐘;5)完成回饋所用的時間長于1小時。基
52、于上述規則,無效回饋被過濾掉;8個任務的有效回饋統計見表1,有效回饋的占比平均約為67%(SD=3.68)。最終形成的人工分詞數據集包含152個句子的分詞數據(不計標點總長度為4,946字),每個句子被123到143個人分詞(均值為133.5,SD=7.37)。根據我們的數據評測,分詞結果的錯誤率很低(5%),因此我們認為數據質量是可靠的。數據評測的方法和過程詳見Wang etal.(2015a)。表 SEQ 表 * ARABIC 1 有效回饋統計數據任務有效回饋數量百分比114271214371.5313869413567.5513366.5612763.5712361.5812763.5最
53、小值12361.5最大值14371.5均值133.566.75標準差7.373.68(四)討論本案例展示了使用土耳其機器人平臺Crowdflower實施心理語言學實驗創建語言數據資源的過程。它展現出的一般方法可以直接應用到類似的語言資源創建任務中。整個實驗共花費約540美元,這些花費包括支付參與者的費用和平臺收取的服務費,約合3,600元人民幣;使用實驗室方法實施同等規模的實驗光是支付參與者的費用就至少是這個數額的2到3倍;使用眾包策略可以有效降低開支。實驗室實驗需要實驗者具體地去組織實施實驗(例如招募參與者、安排場所等等),眾包實驗在很大程度上避免了這方面的精力支出,這是眾包的一個優勢。眾包
54、實驗的參與者來自世界各地,在多樣性上要高于一般的實驗室實驗,并且能夠很方便地獲取大的樣本。在速度方面,因為Crowdflower并非中國本土平臺,它的工人池中的漢語語者很少,所以總體速度并不是特別理想(1.3個月),但從8個任務都在開始的3到6天時間內收集到了100個回饋這點來看,只要有合適的本土平臺,速度可以非常快。作為國際土耳其機器人平臺,Crowdflower雖然可以實施漢語語言資源建設任務,但顯然中國本土平臺是更為合適的選擇,應創建中國本土的土耳其機器人平臺。漢語分詞任務實際上也可以看做一個標注任務,故本案例也可為標注任務提供借鑒。因為我們要實施心理語言學實驗,為了對任務有更多的控制,
55、采用了手工任務分割的方法創建了多個眾包任務。一般的標注任務可以直接使用平臺所提供的任務分割機制,上傳待標注的語言數據(例如以句子為單位,以電子表格形式組織),設定每個任務的規模(例如每個任務6個句子),設定標注冗余量(例如每個句子由10個不同的人標注),創建任務模板,平臺便可以自動進行任務分割和創建。在設定了標注冗余量后,可以使用多數決(majority voting)的方式來聚合出最終標注結果。同時,一般的標注任務無需設置每個工人賬戶及每個IP地址只能提交一個回饋的限制。除了本案例所示的實驗外,我們還實施了另外兩個實驗(Wang etal. 2015b,2014a,2014b)。Wang e
56、tal.(2014b)所報告的實驗主要目的在于驗證在國際土耳其機器人平臺上實施漢語實驗的可行性;它對在國際土耳其機器人平臺上實施漢語實驗的具體技術細節進行了探索并證實了Crowdflower平臺可以用于實施漢語數據相關的實驗;它說明了眾包實驗在速度和經濟性上要優于傳統的實驗室實驗,而在數據質量方面也能符合預期。Wang etal.(2015b,2014a)所報告的實驗則在可行性已經被驗證的基礎上嘗試實施一個收集近1200個復合詞的語義透明度主觀評估數據的大型語言學實驗;每個詞分別收集一個整體透明度、兩個成分透明度的評估數據,所以實驗共有大約3600個問題,我們要求每個詞約由50到60個人去評估
57、;這種規模的實驗在傳統的實驗室環境中實施是有很大難度的,而采用眾包的方法我們在一個半月時間內高效經濟地(實驗花費約1000美元)完成了實驗;實驗數據與實驗室數據的比較也印證了眾包實驗數據質量的可靠性。實驗室實驗仍然是目前的研究范式,眾包實驗在理念和實踐層面為大家所廣泛接受尚需時日。但是眾包實驗目前已經能夠發揮一些重要且不可替代的作用。一些因為時間成本和經濟成本等因素而難以或無法在實驗室環境中實施的實驗,眾包可能是一個可以接受的選擇。眾包實驗還可為一些研究項目的立項提供初期的數據支持。它可為項目的可行性論證提供數據參考,還可用于快速、經濟地測試實驗設計并為是否實施實驗室實驗提供決策依據。六、結語
58、語言資源建設空間廣闊、大有可為;它社會意義重大、各方需求強烈,因而不可不為。同時,語言資源建設又大有難度,有其艱巨性與復雜性。眾包策略在語言資源建設中有著廣泛的適用性,能發揮多方面的重要作用,它能為語言資源建設打開新局面,使得多、快、好、省、可持續地進行語言資源建設成為可能。眾包策略用于語言資源建設,已經有一些可供借鑒的成功案例,我們可以在學習眾包理論、借鑒眾包案例的基礎上將眾包策略創造性地運用到我們的語言資源建設當中去。眾包策略在語言資源建設中的適用范圍尚面臨一些質疑,原因是存在一些看似難以眾包的語言資源建設任務。不同的語言資源建設任務對參與者的語言學專家知識的需求程度不同,我們可據此將語言
59、資源建設任務粗略地分為兩類。一類是“大眾型任務”,即對參與者的專家知識沒有要求或要求較低的語言資源建設任務,例如方言數據收集、語音的文字轉寫、指代消歧標注、多義詞義項標注以及案例所示的基于直覺的分詞等。此類任務只需要依靠參與者的常識性的語言知識或直覺即可,是比較容易眾包的。另一類是“專家型任務”,即對參與者的專家知識有較高要求的語言資源建設任務,例如語音的國際音標轉寫、詞性標注、語義角色標注、句子結構標注等。在一般的眾包平臺上因為具備相關專家知識的人太少,故這類任務較難眾包,但是通過一些策略也能將它們有效眾包。基本的策略有三個,即轉化、培訓和使用專家平臺。轉化是指將專家型任務轉化為大眾型任務,
60、例如兼類詞的不同詞性的義項在語義上往往有明顯區別,可將詞性標注任務轉化為義項標注任務。培訓是指在任務中設置培訓環節,對任務參與者進行培訓,使他們具備參與任務的專家知識。第三種策略是使用專家平臺。眾包是將任務外包給人群,它的力量根本上取決于目標人群的能力結構。創建一個專門服務于語言資源建設的匯聚了大量語言學專家的土耳其機器人平臺是可行的。在這樣的平臺上,即便是專家型語言資源建設任務也能很方便地眾包。眾包策略用于語言資源建設的研究目前尚處于起步階段,其在漢語語言資源建設中的應用更是如此。成功的第一步已經邁出,還有更多的事情值得去做。首先,數據質量是運用眾包策略時的主要關切,因此要進一步加強數據質量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工繳納社保合同協議
- 商品購銷合同協議電子版
- 員工聘用固定合同協議
- 商業主持合同協議
- 員工合同協議解碼模板
- 民國私宅買賣合同協議
- 戀愛分手復合協議書模板
- 商標使用合同協議
- 正常營業中轉讓合同協議
- 員工勞動仲裁協議書范本
- 肝癌的中醫護理查房
- 商務經理試用期轉正工作匯報
- 【五年級下冊語文】 第六單元習作《神奇的探險之旅》
- 2025屆新高考生物沖刺易錯知識點梳理
- 2025森林撫育技術規程
- 《松材線蟲病》課件
- 《中小學校崗位安全工作指導手冊》
- 《大氣污染物綜合排放標準》編制說明
- 《中華人民共和國社區矯正法》知識競賽試題與答案
- 養老機構入住潛在風險告知書1-3-5
- DB22JT 143-2015 住宅工程質量常見問題防控技術規程
評論
0/150
提交評論