漢英統計學術語建庫探索與思考_第1頁
漢英統計學術語建庫探索與思考_第2頁
漢英統計學術語建庫探索與思考_第3頁
漢英統計學術語建庫探索與思考_第4頁
漢英統計學術語建庫探索與思考_第5頁
已閱讀5頁,還剩8頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、漢英統計學術語建庫探索與思考陶李春陸曉蕾南京郵電大學外國語學院南京大學外國語學院南京師范大學數學科學學院摘要:對通過平行術語抓取技術所搜集的3852對漢英對照統計學術語展開統計分析, 簡要介紹了統計學術語庫的創建過程,并運用漢英分詞統計軟件分析其形式特 征,從而對統計學術語的經濟指數進行比較分析,結果顯示統計學術語的主要 構成模式是:低頻修飾詞+高頻主體詞;術語構造中的連字符”雖然可使術語 更容易理解,但是會降低一定的經濟指數;中文術語的經濟指數遠遠高于英語的 術語經濟指數。關鍵詞:統計學術語;術語庫;分詞;經濟指數;作者簡介:陶李春(1981),男,南京郵電大學外國語學院講師,南京大學外 國

2、語學院博士生,研究方向為術語翻譯。通信方式:449251406qq. com。收稿日期:2016-11-02基金:國家社科基金重點項目“人文社會科學漢英動態術語數據庫的構建研究” 仃1ayy002)的部分研究成果exploration on databaseconstruetion for chinese-englishstatistics terminologytao lichun lu xiaoleiabstract:in this paper, word segmentation techniques are used to analyze the form features of 38

3、52 pairs of statistical terms, which are captured by parallel terms grasping technique. in addition, a model is established to compare the economic rate of statistical terms. our resuits show that statistical terms are consisted of 1ow-frequency modifier and high-frequcncy main word; that although h

4、yphcn will reduce the cconomic index, it will make the terms easier to understand; and that the economic index of chinese terms is much higher than that of english. based on these findings, we put forward two basic principles, and introduce the construction process of terminology database.keyword:st

5、atistical term; terminology datobasc; word segmcntation; cconomic index;received: 2016-11-02引言術語是學科專業知識在語言屮的結晶,其所表征的概念或范疇,以及由這些概 念和范疇所構成的學術話語,均為人類物質文明和精神文明延續傳承的基本條 件ul統計學術語是統計學概念、原理的重要表征,是該學科及相關領域學術 交流的重要媒介,是學術傳承與發展的重要見證。隨著信息技術的不斷普及,術語建庫已成為術語學、術語翻譯研究等相關領域的 重要手段。南京大學外國語學院魏向清教授主持的國家社科基金重點項冃,題為“人文社會科學動

6、態術語數據庫的構建研究”,涵蓋了 22個學科,其中包括統 計學漢英術語庫的構建與研究。通過術語建庫,能夠對統計學術語的漢英對照情 況做全面而系統的探究。一漢英統計學術語形式特征分析1. 漢英統計學術語的自動抽取介紹術語抽取的基本理論是基于其結合緊密性和領域性這兩個特征宜。以“擺動指 數”這個統計學術語為例,在前期對初始數據庫分詞之后,這個術語被分為“擺動”和“指數”兩個詞語,結合關聯挖掘的思想,在統計學的數據庫中, 這兩個詞同時出現的概率遠遠大于其他類目的數據庫,所以在這種情況下,數 據庫會新增一個名為“擺動指數”的術語,這就是術語結合緊密性和領域性的 體現。具體的提取過程簡要介紹如下:仃)考

7、慮到初始的統計學數據庫不可能也無法涵蓋所有的文章,所以只選取了 一定數量的不同級別的統計學期刊或與統計學相關的期刊,并以論文題目為參 考標準,選擇了各期刊不同年份的一定數量的論文,形成統計學數據庫。(2)然后對統計學數據庫進行分詞,統計出各個單詞的出現頻率,將出現頻率 較多(達到一定的閾值)的單詞作為抽取出的簡單術語。(3)結合上述的結合緊密性和領域性的特征,通過比對不同學科之間復合詞岀 現頻率的不同來抽取復合術語。(4)將簡單術語和復合術語整理歸類,通過專家討論會的形式篩選岀最終確定 的統計學術語列表。(5)通過相關匹配技術,匹配出漢英雙語對應的統計學術語列表。2. 英文統計學術語的形式特征

8、對通過上述過程抽取到的3852條英文統計學術語進行簡單的文木分析,英文的 文本分析主要使用r語言編程進行,主要是使用“tm”包構建語料庫(corpus 對彖),實際的操作過程屮,因為要用z前抓取的英文術語向量構建語料庫, 所以使用ucorpus”和uvector sourcev函數配合使用,從而創建一個corpus 對象(語料庫對象,即每個單詞岀現的次數),為了避免與術語沒有實際聯系 的噪聲,使用參數“remove punctuation”移除標點等符號,木次主要是在去 除左右括號、連字符、引號等符號的影響后對每個單詞的出現頻率進行分析。從屮提取到2558個單詞,總頻數是9035,可見每個統計

9、學術語的長度大約是3. 53個單詞;其中1465個單詞只出現了一次;2403個單詞出現的次數小于10次 (對corpus對象進行按照出現次數進行匯總排序);其中出現次數超過70次的有 10個單詞(如表1所示),將其稱為統計學的主體詞,分別是distribution lest、 model> sampling、 design、 estimator regression method function、 analysis;其中distribution (分布)和test (檢驗)岀現的次數最高,可見統 計學是一個研究數據的分布和進行假設檢驗的學科;從中還可以發現,這10個 單詞都是名詞,并且

10、大都處在各個術語的末尾部分,有一部分處在頭部(比如 一部分的sampling),剩余的單詞都是對這些單詞的具體補充,稱為修飾詞。 而出現頻率較低的單詞中,具有名字屬性的單詞較多,由于名字翻譯并沒有標 準的翻法,這就給統計學術語的中英互譯造成了一定的困難。單詞頻數頻distribution349test265model135sampling103design101estimator94regression92method86function77analysis713.中文統計學術語的形式特征對上述英文相對應的3852條漢語統計學術語進行分析,其中268條是“英文+ 中文”的形式,仔細觀察后發現,

11、英文部分大多是人名詞,所以在下面分析的 時候不考慮這部分。對剩下的3584條屮文術語進行屮文分詞,本次屮文分詞分析直接借助了大數據 語義分析平臺,最后得到2154個中文詞,總頻數10 899,其中1054個中文詞 只出現了一次;1937個中文詞出現的次數小于10次;其中出現次數超過90次的 有10個單詞(如表2所示,對從平臺中得到的結果使用r語言進行進一步的清 洗和分析),分別是“檢驗”(連字符)“量” “模型”“差”“冋歸”“估計”“圖”“多”等參數,其屮“檢驗” (test)和出現的次數 最高,在出現頻率較低的單詞中,具有名字和地點屬性的單詞較多,這一點與 英文術語是一致的,由于中文分詞技

12、術的欠缺性,分詞的結果并不理想,比如 “差”和“多”這兩個詞應該以詞語的形式體現出才更好。表2屮文高頻詞匯表下載原表詞匯頻數檢驗224153ibi 雖140模型129差114回歸109估計108圖98多93通過對中英術語的分詞分析,發現如下兩點規律:(1)統計學術語的長度特點:在去除中英混雜的3584個漢語術語中,67. 94%的中 文術語長度是46個字,其屮4個漢字的最多,占了 32.48%;在3854個英文統 計學術語中,83. 94%的術語由23個英文單詞組成(連字符相連的單詞視作一個 單詞),其中59. 03%的術語只由兩個單詞構成。(2)統計學術語形成模式特點: 對于中文的統計學復合

13、術語,主要由一個名詞充當形容詞(低頻修飾詞)加一 個名詞(高頻主體詞)。二漢英統計學術語互譯策略及方法描述基本原則是分而譯z,往往先將術語拆分為兩部分,術語的主體詞往往比較容 易找到對應的譯文,而且對應的譯文往往就是英語術語分析中出現頻率最高的 兒個單詞之一,例如“分布”對應distribution, “檢驗”對應test,"模 型”對應model,"抽樣”對應sampling,"估計量”對應estimator,"回 歸”對應regression, “設計”對應design,等等,剩下的便是修飾詞,可能 是數量詞、人名、慣用法等等。1. 直譯法直譯法是將

14、意義上與英語術語中相同或相似的詞語或短語直接翻譯過來,這是 術語英譯的主要途徑rl譯者只要準確把握中文術語的意義,就可以找到對應 詞。直譯法能夠充分忠實于原文,使譯語和原語的信息密度保持高度致,如下 幾點情況下直譯法較為常見:(1)術語構成詞的表意和其實際意義相似或者一致;(2)可拆分的復合術語, 拆分后的單詞滿足情況(1) ; (3)約定而成的特定含義的單詞。比如“單純形” 和simplex的互譯,"因子”與factor的互譯。術語的高頻主體詞部分往往符合狀況(1),可以直接使用直譯,而低頻修飾詞 部分情況比較復雜,需要多種譯法綜合考慮。2. 音譯法音譯法是借詞的一種重要手段和表現

15、形式。趙元任提出,語言甲借用語言乙的詞 匯,通過自身與之相當的音來當一個詞使用血。術語翻譯中音譯法十分常見, 尤其是在語言差異和文化差異十分明顯的情況下,咅譯法占比較大,因此有必 要對音譯進行統計分析和深入研究。三漢英統計學術語系統經濟指數對比分析1. 術語形成的經濟律簡介馮志偉先生提岀了術語形成的經濟律,這是我國學者對術語學基本理論研究的 一個重要貢獻。術語形成的經濟律反映了術語系統內的術語構詞規律,是語言經 濟機制的一種體現。在一個術語系統中,系統的經濟指數e與術語的平均長度l 的乘積,恰恰等于單詞的術語構成頻率f5。用公式表示為:f = el在術語經濟指數的公式屮,f表示單詞的術語構成頻

16、率,e表示術語系統的經濟 指數,l表示術語的平均長度,通過相關公式能給上述公式中的每一個變量進行 界定和計算,具體可以表述為:單詞的術語構成頻率f=r/w (其中r是指術語系 統中的單詞總數,w是指不同的單詞數量);術語系統的經濟指數公式為:e=t/w (其中t指系統的術語數量,w的指稱同上);術語的平均長度計算公式為:l二r/t (r和t同上,分別指單詞總數及術語數量)回。對于一個術語系統而言,其經 濟指數越大,系統的經濟效應就越高,因此提高系統的經濟指數的最好辦法是 在盡量不過大改變術語的平均長度l的情況下,增加單詞的術語構成頻率,所 以在術語形成的過程中,將會產牛大量的詞組型術語,使詞組

17、型術語的數量大 大超過單詞型術語的數量固。在實際的術語系統中,詞組型術語一般都占據大 部分,這個事實正是術語形成的經濟指數作用結果。2. 中英統計學術語的經濟指數分析這里通過r語言中的tin包和reshape2包對相關指標進行了測算,其中tin包負 責文木挖掘,用來進行多種情況分詞比較,形成相應的語料庫對象,reshape2 包是進行數據整合的,以特定的形式輸出數據,結果如下所示:系統經濟 指數(e)英文不做改變1.480英文去除-1.506英文去除停用詞1.488英文去除毎停用詞1.515中文術語1.664從表中可以看出,對于英語統計學術語來說,由于主體詞占比比較高,停用詞 (如“of”和“

18、the")等雖然都會使得系統的經濟指數下降,但是下降得并不 明顯,然而對于來說,去除連字符的影響z后,整個術語系統的經濟指數 從1.48±升到1. 506,產生了巨大的提高,由此可見英語中的“-”雖然能將兩 個概念之間的聯系緊密化,讓人更容易理解,但是可能會降低一定的經濟指數。將平行的兩個漢英統計學術語系統進行對比,中文術語的經濟指數遠遠高于英 語的術語經濟指數,這一方面是不同的語言的表現力的差異,另一方面是中文 分詞規則所致,比如"窗寬”這個術語,其對應的英文術語是windows width,“傳染期”對應的是infectious period,這兩個詞的t二1

19、,而中文的r二1,英 文的r=2,這就導致了中文的經濟指數較大,體現了中文對術語表達的一定的 優越性。四漢英動態術語庫編撰說明術語數據庫(terminology database),簡稱術語庫,用以存儲術語數據£21。 術語庫也被稱作“存儲在電子計算機中記錄概念和術語的自動化電子詞 典”口1。在信息技術飛速發展和日益推廣的今天,創建術語庫并利用術語庫來 支撐翻譯實踐和開展語言研究已成為現實。術語庫最人的特點是能快速檢索相關 信息,并在使用術語庫的同時及時更新術語庫,開展相關研究,有效促進術語 標準化與規范化,杜絕術語使用混亂等情況,進而確保翻譯質量。下文以統計學 漢英動態術語庫為例,

20、簡要介紹由統計學術語構建的漢英動態術語庫。1. 動態術語庫數據項說明本說明參考南京大學“人文社會科學漢英動態術語數據庫的構建研究”項目語 料庫編撰說明,下文針對統計學術語庫構建屮比較重要的幾項指標項進行一定 的解釋。(1) 詞性為防止中英詞性的混亂,統一以n.、v.、adj.、adv.等英文縮寫來標記詞性;如 有多重詞性,用“廠'隔開,事實上統計學術語庫中以名詞性的術語為主,所以 詞性默認標記為n. o(2) 漢語語境/英文語境本庫的“漢語語境”與“英文語境”均為學術語境,且原則上要求是平行語境, 在統計學術語庫的構建中要求術語的漢英語境應選自統計學的權威期刊、雜志、 會議,口中英文應

21、表達同一個意思;為了便于理解術語,語境不能為簡短單句或 傳統定義模式,應達到一定數量的字數或字符要求。(3) 庫內關聯術語即在該學科總術語表中與該術語有語義關聯,或屬于同一術語系統的參見術語, 或是常常一起出現在同一個語境的術語。比如“回歸”和“殘差” “方差分析” 和“方差齊次性”應該屬于庫內關聯術語。2. 術語庫數據項編撰心得匯總在本次統計學術語庫的編撰過程中,遇到一些困難和問題,通過項目團隊研討 和專家評審等途徑加以處理。本次動態術語庫原則上應該以“漢英”為主,但是 統計學諸多的概念都是源于歐美,術語含義應該以英語為主,所以術語庫也應 該以“英漢”為主,最后還是通過計算機的平行術語抽取和

22、專家學者的多輪討 論、修改、刪減避免了這個問題。對于上述的諸多字段來說,語境信息的查找與修改是最大的問題,也是本次編 著的主要難點與重點。首先并沒有一個途徑可以找到所有或者是大部分的術語的 平行語境信息。其次,在大部分找到的平行語境中有一部分的中文或者英文的語言表述有一定的問題,難以直接使用,這時我們述需要理解語境,并且對其表 述的語言進行一定的修改。通過各種方式的嘗試,我們發現通過以下幾個途徑尋找到一定的平行語境:(1) 庫內檢索這是應“人文社會科學漢英動態術語數據庫的構建研究”項目的需要,在前期 準備階段構建的一個數據庫,主要包括一定的相關論文的摘要,可供參考檢索。(2) 碩博論文摘要通過

23、國內學術電子資源如“中國知網” “萬方”等,查找含有相關中文術語或 對應英文術語的碩博論文摘要,可獲取漢英平行語境信息,其中學科領域、檢索 條件可細化。(3) 谷歌學術/百度學術推薦檢索方式如下:檢索“英文術語”(對英文字符加雙引號,以增加檢索的準 確性),在界面左側選擇“中文網頁”,便于查找雙語信息。(4) cnki翻譯助手不同于一般的英漢互譯工具,cnki翻譯助手是以cnki總庫所有文獻數據為依據, 匯集從c¥k1系列數據庫中挖掘整理出的800余萬常用詞、專業術語、成語、俚 語、固定用法、詞組等中英文詞條以及1500余萬雙語例句、500余萬雙語文摘, 形成海量中英在線詞典和雙語平

24、行語料庫。(5) 相關實體書籍查閱主要有上海外語教育出版社的英漢漢英統計詞匯使用手冊和劍橋大學出版社 (cambridge university press)的 the cambridge dictionary of statistics (third edition)(劍橋統計學詞典(第三版)兩木比較權威的書。(6) 其他學術信息網站統計學術語的檢索還可以參考以下網站(詳見表4)。學術網站名稱cnki學問http: / /xuewen,cnki>ne1術語信息網http: /term.blcu>edu>ccnki i具書館http: /gongjushu>cnklde

25、fault, as px中國關鍵詞http: /www. china. org.( china key words /此外,在參與編撰的過程中,述遇到了一些其他問題,并通過組內討論交流等 方式處理了這些問題,總結如下:仃)編撰期間可以通過“新建一個txt文木”進行過渡來自動過濾文木格式, 保證所粘貼的信息在平臺上能夠識別,否則容易保存失敗;(2) 確保每個數據項屮所填信息的第一個和最后一個字符不是空格,否則會引 起保存失敗;(3) 在英文語境中,對于某些符號,比如“”,由于平臺無法識別而無法保存, 所以要避免這類符號的出現。從統計學語境搜索反觀統計學術語庫建設現狀,在國內擁有資源最豐富的術語 庫或許是cnk翻譯助手,不僅涉獵各個領域,而且還提供了譬如英漢詞語、短語, 甚至是整句的翻譯檢索,并提供相關的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論