計算機輔助翻譯_第1頁
計算機輔助翻譯_第2頁
計算機輔助翻譯_第3頁
計算機輔助翻譯_第4頁
計算機輔助翻譯_第5頁
已閱讀5頁,還剩12頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

76Computer-AidedTranslationTechnologyItisveryimportanttonotethatcorpusanalysistoolsdonotinterpretthedata-itisstilltheresponsibilityofthetranslatortoanalyzetheinformationfoundinthecorpus.需要重點注意的是,語料庫分析工具不解釋數據一一分析語料庫中的信息仍是譯者的責任。FURTHERREADINGEngwall(1994),Bowker(1996),MeyerandMackintosh(1996),Pearson(1998).Austermuhl(2001),andBowkerandPearson(2002)discussissuesrelatingtocorpusdesignandcompilation.Barnbrook(1996),Kennedy(1998),McEneryandWilson(1996),andBowkerandPearson(2002)providegoodintroductionstocorpuslinguisticstoolsandtechniques.Bowker(1998,2000),Lindquist(1999),andBowkerandPearson(2002)investigatehowcorporacanbeexploitedastranslationresources.L'Homme(1999a,chapter6)andBowkerandPearson(2002)explainhowmonolingualandbilingualconcordancersworkandexplorehowtheycanbeusefultotranslators.Pearson(1996)andZanettin(1998)explorehowcorpusanalysistoolscanbeintegratedintothetranslationclassroom.Garside,Leech,andMcEnery(1997)provideinformationonvarioustypesofcorpusannotation.擴展閱讀英格沃爾(1994),鮑克(1996),梅耶和麥金托什(1996),皮爾森(1998),奧斯特穆勒(2001),和鮑克和皮爾森(2002)討論了與語料庫設計和編譯相關的問題。巴恩布克(1996),肯尼迪(1998),麥克恩瑞和威爾遜(1996),鮑克和皮爾森(2002)較好地介紹了語料庫語言工具和技術。鮑克(1998,2000),林奎斯特(1999),鮑克和皮爾森(2002)調查了如何將語料庫作為翻譯資源進行開發。洛姆(1999a,第6章)和鮑克和皮爾森(2002)解釋了單語和雙語詞語索引的工作機制并探索譯者如何將它們作為有用工具進行使用的。皮爾森(1996)和扎內廷(1998)探討如何將語料庫分析工具應用到翻譯課堂中去。加賽德,利奇,麥克恩瑞(1997)為各種類型語料庫注釋提供了信息。Terminology-ManagementSystems_userswhotrytousestandardspreadsheet,database,orword-processingprogramstomanageterminologicaldataalmostinevitablyrunintoproblemsinvolvingcompromiseddataintegrityduetoinadequatemodelingfeatures,inadditiontodifficultiesmanipulatinglargevolumesofdataasresourcesgrowovertime.Schmitz(2001,539)word文檔可自由復制編輯4術語管理系統那些嘗試使用標準表格、數據庫、或文字處理項目來管理術語數據的用戶幾乎不可避免地會遇到一些問題,除了難以操作由隨著時間的流逝而不斷增多的資源產生的大量數據,還包括由于建模功能不足而破壞數據完整性的問題,。施密茨(2001,539)Amajorpartofanytranslationprojectisidentifyingequivalentsforspecializedterms.Subjectfieldssuchascomputing,manufacturing,law,andmedicineallhavesignificantamountsoffield-specificterminology.Inaddition,manyclientswillhavepreferredin-houseterminology.Researchingthespecifictermsneededtocompleteanygiventranslationisatime-consumingtask,andtranslatorsdonotwanttohavetorepeatallthisworkeachtimetheybeginanewtranslation.Aterminology-managementsystem(TMS)canhelpwithvariousaspectsofthetranslator'sterminology-relatedtasks,includingthestorage,retrieval,andupdatingoftermrecords.ATMScanhelptoensuregreaterconsistencyintheuseofterminology.whichnotonlymakesdocumentationeasiertoreadandunderstand,butalsopreventsmis-communications.Effectiveterminologymanagementcanhelptocutcosts,improvelinguisticquality,andreduceturnaroundtimesfortranslation,whichisveryimportantinthisageofintensetime-to-marketpressures.任何翻譯項目的主要部分都是識別專業術語的等價項。諸如計算、制造、法律和醫學之類的學科領域都擁有大量的領域專業術語。止匕外,很多客戶會優先選擇內部術語。研究需要完成所有給定翻譯的專業術語是一項非常耗時的任務,譯員并不想每次開始新的翻譯工作時都要重復這項工作。術語管理系統(TMS)可以幫助譯員進行相關術語的各方面翻譯工作,包括存儲、檢索和更新術語記錄。術語管理系統(TMS)能夠確保術語的使用更加一致,這不僅會使文檔更易于閱讀和理解,而且可以防止出現錯誤交流。有效的術語管理有助于降低成本,提高語言質量,減少翻譯周轉時間,在這個市場競爭激烈的時代中這些優勢發揮著重要作用。TMSshavebeeninexistenceforsometime.Earlyeffortstousecomputersforterminologymanagementbeganinthe1960sandeventuallyledtothedevelopmentofseverallarge-scaletermbanks,suchasEurodicautom.Termium,andtheBanquedeterminologieduQuebec(nowknownastheGranddictionnaireterminologique),whichweremaintainedonmainframecomputersbylargeorganizations.Inthe1980s,whendesktopcomputersbecameavailable,personalTMSswereamongthefirstCATtoolscommerciallyavailabletotranslators.Althoughtheywereverywelcomeatthetime,theseearlyTMSshadsomelimitations.Theyweredesignedtorunonasinglecomputerandcouldnoteasilybeshared.Theytypicallyallowedonlysimplemanagementofbilingualterminologyandimposedconsiderablerestrictionsonthetypeandnumberofdatafieldsaswellasonthemaximumamountofdatathatcouldbestoredinthesefields.Recently,however,thistypeofsoftwarehasbecomemorepowerfulandflexible,particularlyintermsofstorageandretrievaloptions.術語管理系統已經存在了一段時間。利用電腦進行術語管理的前期努力始于20世紀60年代,最終開發了Eurodicautom、Termium、theBanquedeterminologieword文檔可自由復制編輯duQuebec(現在被稱為巨型詞典術語)幾個大型術語存儲庫,它們都是大型組織在主機上保存的存儲庫。20世紀80年代,當臺式機進入人們的生活,個人的術語管理系統便成為了譯者可從市場上買到的首批CAT工具中的一種。雖然當時很受歡大家迎,但這些早期的術語庫管理系統仍具備一定的局限性。所設計的這些數據庫管理系統只能在一臺計算機上運行并不便于進行共享。他們通常只允許對雙語術語進行簡單管理并且極大限制了數據域的類型和數量以及可以存儲在這些數據域中的最大數據信息量。然而,最近這種類型的軟件功能變得更加強大和靈活,特別是在存儲和檢索選項方面。StorageThemostfundamentalfunctionofaTMSisthatitactsasarepositoryforconsolidatingandstoringterminologicalinformationforuseinfuturetranslationprojects.Previously,manyTMSsstoredinformationinstructuredtextfiles,mappingsource-to-targetterminologyusingaunidirectionalone-to-onecorrespondence.Thiscauseddifficulties,forexample,ifaFrench-EnglishtermbaseneededtobeusedforanEnglish-Frenchtranslation.Thenewer,moresophisticatedsoftwarestorestheinformationusingarelationalmodel.Thismeansthattheinformationisstoredinamoreonomasiologicalorconcept-basedway,whichpermitsmappinginmultiplelanguagedirections.存儲術語庫最基本的功能是作為存儲庫來鞏固并存儲術語信息,以備將來翻譯項目之用。之前,許多術語管理系統將信息存儲在結構化文本中,使用單向一一對應的方法進行源語和目標語之間的轉化。這樣,就產生了一些難題,比方說法英翻譯需要用到的法語-英語術語庫。較新、較復雜的軟件采用關系模型來存儲信息,也就意味著要通過一種更加偏向于以專名學或概念為基礎的方法儲存信息,允許進行多種語言之間的轉化。Thereisalsoincreasedflexibilityinthetypeandamountofinformationthatcanbestoredonatermrecord.Formerly,userswererequiredtochoosefromapredefinedsetoffields(e.g.,subjectfield,definition,context,source),whichhadtobefilledinoneachtermrecord.止匕外,這也使可儲存在術語記錄中的信息類型和信息數量更加靈活。以前,用戶需要從一組預定義字段(比如主字段、定義、上下文、來源)中進行選擇,并且這些字段必須來自每一條術語記錄。Thenumberoffieldswasoftenfixed,aswasthenumberofcharactersthatcouldbestoredineachfield.Forinstance,ifaTMSallowedforonlyonecontext,theuserwasforcedtorecordonlyonecontext,eventhoughitmayhavebeenusefultoprovideseveral.Anexampleofatypicalconventionalrecordtemplateisprovidedinfigure4.1.Term(En):Term(Fr)Subjectfield:Definition:Context:Synonyms:word文檔可自由復制編輯Source:Comment:Administrativeinfo(date,author,qualitycode,etc,):Figure4.1TMStermrecordwithafixedsetofpredefinedfields通常,字段數目以及每個字段能夠存儲的字符數都是固定的。例如,如果一個術語管理系統只允許記錄一個文本的話,即使對用戶來說記錄多個文本是有好處的,但他還是只能記錄一個。圖4.1所示的是傳統記錄模板的典型例子。術語(英文):術語(法文)主字段:定義:上下文:同義詞:來源:注釋4.1含有一套固定的預定義領域字段的術語管理系統的術語記錄管理信息(日期、作者、質量、編碼等):圖4.1Incontrast,asillustratedinfigure4.2,mostcontemporaryTMSshaveadoptedafreeentrystructure,whichallowsuserstodefinetheirownfieldsofinformation,includingrepeatablefields(e.g.,formultiplecontexts)andsomeevenpermittheinclusionofgraphics.Notonlycanuserschoosetheirowninformationfields,theycanalsoarrangeandformatthem,choosingdifferentlayouts,fonts,orcolorsforeasyidentificationofimportantinformation.Thismeansthatthesoftwarecanbeadaptedtosuitaspecificuser'sneedsandcangrowasfuturerequirementschange.Theamountofinformationthatcanbestoredinanygivenfieldorrecordhasalsoincreaseddramatically.Differenttermbasescanbecreatedandmaintaineddesired.Term(En): selected(v)Subjectfield: computingContext1: TheitemyouselecteddoesnotexistSource:ComputermagazineABC,1999Context2: Whenyouarefinishedtheselectingthetext,clickontheFormatmenuSource:UsermanualXYZ,1998Client:CompanyAFr:SelectionnerDate:June2000Client:CompanyBFr:choisirDate:January2001word文檔可自由復制編輯Figure4.2TMStermrecordwithfreeentrystructure如圖4.2所示,相比之下,大多數術語管理系統當前都采用自由條目結構,讓用戶自行定義他們自己的信息字段,其中包括可重復字段(例如,處理多個文本時),還有一些甚至允許錄入圖表。用戶不僅可以選擇他們自己的信息字段,還可以將這些信息字段排序和格式化,為它們選擇不同的布局和字體,對容易識別的重要信息進行標色等。這意味著可以對這款軟件進行調整以滿足特定用戶的需求,并且它還可以隨著未來用戶需求的變化而發展。很明顯,任何給定字段或記錄所能存儲的信息量也在增加。可以創建不同的術語庫以滿足不同需求。術語(英文): 已選擇(v)主字段: 計算文本1: 你所選擇的項目不存在來源:計算機基礎雜志,1999文本2: 完成文本的選擇后,單擊“格式”菜單來源:用戶手冊指南,1998客戶:A公司法文:競選人日期:2000年6月客戶I.B凈有自由條目結構的術語管理系統的術語記錄法2R選擇eval密:鍛年1月Oncetheterminologyhasbeenstored,translatorsneedtobeabletoretrievethisinformation.Arangeofsearchandretrievalmechanismsisavailable.Thesimplestsearchtechniqueconsistsofalook-uptoretrieveanexactmatch.SomeTMSspermittheuseofwildcardsfortruncatedsearches.Awildcardisacharacter.suchasanasterisk,thatcanbeusedtorepresentanyothercharacterorstringofcharacters.Forinstance,awildcardsearchusingthesearchstring"comput*"couldbeusedtoretrievethetermrecordsfor"computer,""computing,"andsoon.MoresophisticatedTMSsalsoemployfuzzymatchingtechniques.Afuzzymatchwillretrievetermrecordsthataresimilartotherequestedsearchpattern,butthatdonotmatchitexactly.Fuzzymatchingallowstranslatorstoretrieverecordsformorphologicalvariants(e.g.,differentformsofverbs,wordswithsuffixesorprefixes),spellingvariants(orevenspellingerrors),andmulti-wordterms,evenifthetranslatordoesnotknowpreciselyhowtheelementsofthemulti-wordtermareordered.Table4.1providessomeexamplesofthetermrecordsthatcouldberetrievedusingfuzzymatchingtechniques.Table4.1SampletermrecordsretrievedusingfuzzymatchingSearchpatternenteredbyuserTermrecordretrievedusingfuzzymatching“anovulatory” ovulation“discus” disk“departmentfordangerousgoodsdangerousGoodsEmergencyCentreemergencies”word文檔可自由復制編輯一旦術語被存儲起來,就要求譯員具備就這些信息進行檢索的能力。有一系列的搜索和檢索機制可供使用。最簡單的搜索技術就是通過查詢檢索出精確匹配項。一些術語管理系統允許使用通配符來進行截斷搜索。一個通配符就是一個字符,比如一個星號可以用來代表任何字符或者字符串中的字符。例如,通配符搜索使用的搜索字符串“comput*"可以用來檢索“computer”、“computing”等術語的記錄。較復雜的術語管理系統還可以使用模糊匹配技術。模糊匹配可以檢索出與所要求搜索模式相似的術語記錄,但并不是精確匹配。即使譯員不能準確理解多詞術語中各種成分的組織形式,模糊匹配可以讓他們檢索出形態變體(例如,動詞的不同形式,帶有前綴或者后綴的單詞),拼寫變體(或者甚至是拼寫錯誤)和多詞術語的記錄。表4.1所示是通過模糊匹配技術檢索出的一些術語記錄的例子。表4.1通過模糊匹配檢索出的術語記錄示例用戶使用的搜索模式 通過模糊匹配檢索出的術語記錄“anovulatory” ovulation“discus” disk“departmentfordangerousgoodsdangerousGoodsEmergencyCentreemergencies”Whenwildcardsearchingorfuzzymatchingisused,itispossiblethatmorethanonerecordwillberetrievedasapotentialmatch.Whenthishappens,usersarepresentedwitha"hitlist"ofalltherecordsinthetermbasethatmaybeofinterest,andtheycanselecttherecord(s)thattheywishtoview.Samplehitlistsareshownintable4.2.Table4.2SamplehitlistsretrievedfordifferentSearchpatternsHitlistcontainingrecordsthatmatchthewildcardsearchpattern“cake”Hitlistcontainingrecordsthatfuzzysearchpattern“skate-boardingchampion”cheesecakechampioncupcakeskateboard(n)fruitcakeskateboard(v)pancakeskateboardingInternationalSkateboardingChampionships使用通配符搜索或者模糊匹配時,可能會檢索出不止一條充當潛在匹配角色的記錄。出現這種情況時,用戶在術語庫中會看到他們會感興趣的“命中列表”,在這個列表中,這樣用戶就可以選擇他們想要查看的記錄。表4.2所示的是命中列樣例表4.2不同檢索模式下的命中列樣例命中列表:包含匹配通配符搜索 命中列表:包含匹配模糊搜索模式的記錄 模式的記錄word文檔可自由復制編輯“cake”“skate-boardingchampion”cheesecakechampioncupcakeskateboard(n)fruitcakeskateboard(v)pancakeskateboardingInternationalSkateboardingChampionships4.3Activeterminologyrecognitionandpre-translation4.3主動術語識別和預翻譯AnotherfeatureofferedbysomeTMSs,particularlythosethatoperateaspartofanintegratedpackagewithwordprocessorsandtranslation-memorysystems(seesection)isknownasactiveterminologyrecognition.Thisfeatureisessentiallyatypeofautomaticdictionarylook-up.Asthetranslatormovesthroughthetext,theterminology-recognitioncomponentcomparesitemsinthesourcetextagainstthecontentsofthetermbase,andifamatchisfound,thetermrecordinquestionisdisplayedfortheusertoconsult.一些術語管理系統的另一功能,特別那些作為帶有文字處理器和翻譯記憶系統的完整軟件包的一部分進行運作的術語管理系統(見節),以主動術語識別著稱。從本質上來說,這是一種自動字典查詢功能。隨著譯員逐漸深入研究文本,術語識別組件會將源文本中的項目與術語庫中的內容進行對比,如果找到匹配項,就會把這個選中的術語記錄展現給用戶以供其參考。SomeTMSsalsopermitamoreautomatedextensionofthisfeatureinwhichatranslatorcanaskthesystemtodoasortofpre-translationorbatchprocessingofthetext.'還有一些術語管理系統具有自動擴展功能。這樣,譯者就可以利用系統完成文本的預翻譯和批處理。82Computer-AidedTranslationTechnology計算機輔助翻譯技術Table4.3Automaticreplacementofsource-texttermswithtranslationequivalentsfoundinatermbaseSourcetextsentencefollowingTermbaseentriesforitemscontainedinthesourcetextSentenceproducedpre-translationThefileoperationdiskdisqueTheoperationword文檔可自由復制編輯defichiercannotbecompletedfileoperation-operationdefichiercannotbecompletedbecausebecausethediskisfullfull-sature thedisqueissature表4.3用術語庫中的翻譯等值項目自動替換源文本中的術語原文本句子 術語庫條目中包含的源文本術語 預翻譯后產生的句子Thefileoperation diskdisque Theoperationdefichiercannotbecompletedfileoperation-operationdefichiercannotbecompletedbecausebecausethediskisfullfull-sature thedisqueissatureInthiscase,theTMSwillidentifytermsforwhichanentryexistsinthetermbase,anditwillthenautomaticallyinsertthecorrespondingequivalentsintothetargettext.Theresultofthispre-translationphaseisasortofhybridtext,asshownintable4.3.Inapost-editingphase,itisuptothetranslatortoverifythecorrectnessoftheproposedtermsandtotranslatetheremainderofthetextforwhichnoequivalentswerefoundinthetermbase.在這種情況下,術語管理系統將會在已有的術語庫中識別這些術語,然后自動在目標文本中插入相應的翻譯等值項。這個預翻譯階段的結果就是生成一種混合文本,如表4.3所示。在文章編輯階段,將由譯者來驗證所替換術語的正確性并翻譯未能在術語庫中找到翻譯等值項的剩余部分。4.4TermextractionAnotherfeaturethatmaybeincludedinsomeTMSsisaterm-extractiontool,whichissometimesreferredtoasaterm-recognitionorterm-identificationtool.Mostterm-extractiontoolsaremonolingual,andtheyattempttoanalyzesourcetextsinordertoidentifycandidateterms.However,somebilingualtoolsarebeingdevelopedthatanalyzeexistingsourcetextsalongwiththeirtranslationsinanattempttoidentifypotentialtermsandtheirequivalents.Thisprocesscanhelpatranslatorbuildatermbasemorequickly;however,althoughtheinitialextractionattemptisperformedbyacomputer,theresultinglistofcandidatesmustbeverifiedbyahuman,andthereforetheprocessisbestdescribedasbeingcomputer-aidedorsemi-automaticratherthanfullyautomatic.Unliketheword-frequencylistsdescribedinsection3.2.1,term-extractiontoolsword文檔可自由復制編輯attempttoidentifymulti-wordunits.Therearetwomainapproachestotermextraction:linguisticandstatistical.Forclarity,theseapproacheswillbeexplainedinseparatesections;however,aspectsofbothapproachescanbecombinedinasingleterm-extractiontool.4.4術語抽取一些術語管理系統可能還有另一個特點,就是包含了術語抽取工具,有時也被稱為術語識別或術語鑒別工具。大多數術語抽取工具是單語的,它們試圖分析源文本以確定候選術語。然而,也正在開發一些雙語工具,這些工具可分析現有的源文本以及他們的翻譯在以期識別出它們的潛在術語及等值項。這一過程可以幫助譯者更迅速的建立一個術語庫;盡管最初的提取嘗試是由計算機執行的,但是必須由人來驗證最終產生的候選列表,因此對它的最佳描述應該是計算機輔助或半自動翻譯而非全自動。與3.2.1節中所描述的詞頻列表不同,術語抽取工具試圖識別多詞單位。術語抽取主要有兩種方法:語言學方法和統計學方法。為了清楚起見,將在不同的章節對這兩種方法進行分別解釋;然而,這兩種方法的某些方面也可以結合成一個單一術語提取工具。Terminology-ManagementSystems83術語管理系統83Antivirusprogramsnowincludeanumberofoptions.Integritycheckingperformschecksofthestatusofthefilesagainsttheinformationthatisstoredinadatabase.Behaviorblockingperformsbefore-the-factdetection.Heuristicanalysisisaformofafter-the-factdetection.Ashorttextthathasbeenprocessedusingalinguisticapproachtotermextraction.圖4.3 一個使用語言學方法進行術語抽取加工的簡短文本Antivirusprogramsnowincludemoreoptions.Integritycheckingperformsperiodicchecksofthecurrentstatusofthefilesagainsttheinformationthatisstoredinformation.Behaviorblockingperformsbefore-the-factdetection.Heuristicanalysisisaformofafter-the-factdetection.Aslightlymodifiedversionofthetextthathasbeenprocessedusingalinguisticapproachtotermextraction.圖4.4 使用語言學方法進行術語抽取加工并輕微修正過的文本4.4.1LinguisticapproachTerm-extractiontoolsthatusealinguisticapproachtypicallyattempttoidentifywordcombinationsthatmatchparticularpart-of-speechpatterns.Forexample,inEnglish,manytermsconsistofNOUN+NOUNorADJECTIVE+NOUNcombinations.Inordertoimplementsuchanapproach,eachwordinthetextmustword文檔可自由復制編輯firstbetaggedwithitsappropriatepartofspeech,asdescribedinsection3.3.Oncethetexthasbeencorrectlytagged,theterm-extractiontoolsimplyidentifiesalltheoccurrencesthatmatchthespecifiedpart-of-speechpatterns.Forinstance,atoolthathasbeenprogrammedtoidentifyNOUN+NOUNandADJECTIVE+NOUNcombinationsaspotentialtermswouldidentifyalllexicalcombinationsmatchingthosepatternsfromagiventext,asillustratedinfigure4.3.Unfortunately,notalltextscanbeprocessedthisneatly.Ifthetextismodifiedslightly,asillustratedinfigure4.4,problemssuchas"noise"and"silence"becomeapparent.First,notallofthecombinationsthatfollowthewillqualifyspecifiedpatternsasterms.OftheNOUN+NOUNandADJECTIVE+NOUNcandidatesthatwereidentifiedinfigure4.4,somequalifyasterms4.4.1語言學方法使用語言學方法的術語抽取工具的典型特點是:試圖通過匹配特定的詞性模式來識別單詞組合。例如,許多英語術語的構成模式是:名詞+名詞或者形容詞+名詞。為了適應這種方法,首先必須適當標記出文本中每個單詞的詞性,如3.3節所述。一旦文本被正確標記,術語提取工具將很容易識別出與特定詞性模式相匹配的所有術語。例如,一個術語抽取工具編程的潛在條件是識別名詞+名詞組合和形容詞+名詞組合,那么該工具可以從給定文本中識別出與這一模式相匹配的所有詞匯組合,如圖4.3所示。不幸的是,并不是所有的文本都可以被加工的這么整齊。如果對文本稍作修改,如圖4.4所示,“噪聲”和“無聲”之類的問題將變得很顯而易見。首先,并非所有的詞匯組合都按照指定的術語模式以合格特定術語模式的身份出現。圖4.4識別出的名詞+名詞和形容詞+名詞候選模式中,有一些符合("antivirusprograms,""integritychecking,""behaviourblocking,""heuristicanalysis"),然而另外一些卻不符合,(moreoptions,”“periodicchecks,”“currentstatus,”“storedinformation,")。后面這個集合構成噪聲并需要將其人工排除在候選名單之外。84Computer-AidedTranslationTechnology("antivirusprograms,""integritychecking,""behaviourblocking,""heuristicanalysis"),whereasothersdonot("moreoptions,""periodicchecks,""currentstatus,""storedinformation").Thelattersetconstitutesnoiseandwouldneedtobeeliminatedfromthelistofcandidatesbyahuman.Anotherpotentialproblemisthatsomelegitimatetermsmaybeformedaccordingtopatternsthathavenotbeenpre-programmedintothetool.Thiscanresultin"silence."-asituationinwhichrelevantinformationisnotretrieved.Forexample,theterms"before-the-fact-detection"and"after-the-factdetection"havebeenformedusingthepatternPREPOSITION+ARTICLE+NOUN+NOUN;however,thispatternisnotcommonandisnotlikelytoberecognizedbymanytermextractiontools.Afinaldrawbacktothelinguisticapproachisthatitisheavilylanguagedependent.Term-formationpatternsdifferfromlanguagetolanguage.Forinstance,term-formationpatternsthataretypicalinEnglish(e.g.,ADJECTIVE+NOUN.NOUN+NOUN)arenotthesameasterm-formationpatternsthatarecommoninword文檔可自由復制編輯French(e.g.,NOUN+ADJECTIVE,NOUN+PREPOSITION+NOUN).Consequently,term-extractiontoolsthatusealinguisticapproacharegenerallydesignedtoworkinasinglelanguage(orcloselyrelatedlanguages)andcannoteasilybeextendedtoworkwithotherlanguages.84計算機輔助翻譯技術另一個潛在問題是,一些根據未被預先編程到術語抽取工具中去的模式構成合理術語。這可能產生“無聲”一一種未檢索到相關信息的情況。例如,"before-the-fact-detection"和"after-the-factdetection"兩個術語就是按照介詞+冠詞+名詞+名詞的模式構成的。當然,這一模式不常見也不易于許多術語抽取工具對其進行識別。最后,使用語言學方法進行操作的術語抽取工具的缺點是,它有嚴重的語言依賴性。不同語言的術語構成模式各不相同。例如,典型的英文術語形成模式(如:名詞+名詞,形容詞+名詞)在法文術語形成模式中卻不如(名詞+形容詞,名詞+介詞+名詞)常見。因此,使用語言學方法進行操作的術語抽取工具的設計目的是在一個單語(或密切相關的語言)工作環境中使用,而且很不容易延伸到其他語言環境中去。4.2:TMSspermitmoreflexiblestorageandretrieval.Inaddition,itiseasiertoupdateelectronicinformation,andfastertosearchthroughelectronicfiles.Eventhoughawordprocessorallowsinformationtobestoredinelectronicform,itisnotanadequatetoolformanagingterminologyinanefficientway,anditssearchfacilitiesslowdownconsiderablyasthetermbasegrowsinsize.AnotherwaythataTMScanpotentiallyspeedupatranslator'sworkisbyallowingtermstobepasteddirectlyintothetargettext,thusavoidingtheneedtoretypetheterm.Ofcourse,termsmayneedtobeeditedtofitintothecontext(e.g.,averbmayneedtobeconjugated),whichmeansthattimesavedoncopyingandpastingmayneedtobespentonediting.Insomecases,thishasledtoanewwayofrecordinginformationonterminologyrecords,andthisisdiscussedinsection.2:術語管理系統讓信息的存儲和檢索更加靈活。此外,它讓電子信息更新變得更加容易,讓通過電子文件進行搜索的速度變得更快。盡管文字處理器允許以電子版的形式存儲信息,但它并不能恰當有效地管理術語,并且其搜索設備的搜索速度也會隨著術語庫規模的擴大而大大減慢。術語管理系統能夠幫助提高譯員的工作速度,因為它允許將術語直接粘貼到目標文本中,而避免了重新輸入術語。當然,必要時需要重新編輯術語以適應上下文的需要(例如動詞可能需要變位配合),這意味著節省了在編輯過程中復制和粘貼術語所需要的時間。這在某種程度上也促成了一種記錄術語信息新方法的形成,4.6.3節將就其展開討論。4.6.2quality4.6.2質量Althoughanytypeofglossarycanhelptoimproveconsistencythroughoutatranslationproject,theactiveterminology-recognitionfeatureofsomeTMSstakesthisonestepfurther.AsClark(1994,306)notes,thereislittlepointingoingtothetroubleofensuringthatterminologyisagreedtobeforehandandstoredinatermbaseword文檔可自由復制編輯iftranslatorschoosenottoconsultthistermbase.Withactiveterminologyrecognition,thechoiceistakenoutoftheirhandsbecausetermsinthesourcetextareautomaticallycheckedagainstthetermbase.盡管任何類型的術語表都能提高整個翻譯項目的一致性,但是一些術語管理系統的主動術語識別功能在一領域領先了一步。正如克拉克(1994,36)所指出的那樣,如果譯員不查詢術語庫,那么為預先確定術語并將其存儲在術語庫中所做的努力就沒有意義了。依靠主動術語識別,譯員有了更多選擇,因為可以在術語庫中自動檢索源文本中的術語。4.6.3ChangingthenatureofthetaskInadditiontospeedingupthetaskofsearchingforterminology,thereissomeevidencethatthetechnologyisbeginningtohaveanimpactontheamountandtypeofterminologicalinformationthatisbeingrecordedonatermrecord,aswellasonthewayinwhichthisinformationisbeingrecorded.4.6.3改變翻譯任務的性質除了能夠加快進行搜索術語的任務,一些證據表明術語管理系統應用技術正開始影響術語記錄中的術語信息數量和信息類型,其影響方式也一同記錄其中。Althoughflexibletoolsdoallowuserstoenterdetailedinformationintoglossaries,itisbecomingincreasinglycommontoseeglossariesusedinthelocalizationindustrythatcontainonlythesourceandtargetterm,andperhapsacommentifthesourcetermhasmultiplepossibletranslationsdependingonthecontext.AccordingtoO'Brien(1998,118),thereareseveralreasonsforthistypeofstripped-downglossaryformat.First,therequiredturnaroundtimeinthelocalizationindustryisoftensoshortthatitdoesnotallowforthepreparationofdetailedglossaries.Second,theterminologyused(evenbythesameclient)canchangerapidly,warrantingnewglossarieseachtimetheclienthasaproductlocalized.Finally,thetranslator,whoalsohastoproduceveryfastturnaroundtimes,isinterestedonlyintheclient-approvedtranslatedtermandthecontextinwhichatermcanoccurifthereismorethanonetranslationforthatterm.Ofcourse,thistrendhasbeencausedmorebythenatureofthetranslationmarketthanbythenatureofthetechnologyitself;however,thefactthattechnologymakesiteasytocompileandtransferinformationquicklyhascontributedtothetrendoftreatingglossariesasdisposableitems,ratherthanaslongstandingrecords.雖然靈活的工具允許用戶將詳細信息輸入術語表,我們可以看到術語表正被越來越普遍(廣泛)地用于本地化行業,但僅包含源語術語和目標術語以及可能的注釋并且條件是根據上下文的含義源術語有多種翻譯可能。根據奧布萊恩(1998,118)的看法,存在這種精簡版的術語表格式的原因有以下幾種:首先,本地化行業所需要的周轉時間往往很短,它不允許編制詳細的術語表;其次,使用的術語(即使是同一客戶端)會迅速改變,以確保客戶端在每次有一個本地化產品時會有相應的新術語表;最后,在周轉時間內同樣需要快速產出作品的譯員只對經客戶端核準的術語以及包含多種翻譯意思的術語所適用的語境感興趣。當然,比起翻譯本身的性質,是翻譯市場的性質更多地造成了這種趨勢。然而,技術讓快速編譯和傳輸信息成為事實,這一事實已經促成將術語表作為一次性利用工具而非長期記錄趨勢的產生。Thetechnologyis,however,responsibleforpromptingachangeinboththetypeofword文檔可自由復制編輯datathatarebeingstoredandthewayinwhichtheyarerecordedontermrecords.Forexample,inintegratedpackages(packagesthatarelinkedwithotherapplications,suchaswordprocessorsortranslationmemories),translatorscanautomaticallyinsertterminologyfromtheTMSdirectlyintothetargettext(e.g.,byclickingontheterminthetermrecord).Thiscansavetime,asthereisnoneedtoretypeorcutandpaste.Oneresultofthisisthatsometranslatorsarecreatingtermrecordsforphrasesorexpressionsthatoccurfrequentlyinaspecializedsubjectfieldbutdonotqualifyastermsintheconventionalsense.Forinstance,atranslatorworkingonthetranslationofacomputermanualmaycreatetermrecordsforexpressionssuchas"clickonOK"or"it'seasyto"becauseitisfastertoinsertthesefrequentlyusedexpressionsdirectlyfromtheTMSthanitistotypethem.然而,該技術負責推動正被存儲的數據類型改變,以及將該數據被記錄在術語記錄中的方式的改變。例如,在綜合程序包中(即與其他應用程序,如文字處理器或翻譯記憶相關聯的程序包),譯員可以從術語管理系統中自動直接將術語插入到目標文本中(例如,通過點擊術語記錄中的記錄插入)。這可以節省時間,無需重新輸入或剪切和粘貼術語。這么做的后果是,譯員將可以把頻繁出現的某個專門學科領域的短語或表達制成術語,以區別于他們的傳統意義。例如,一個致力于電腦使用手冊翻譯的譯員可以創建屬于表達式如“點擊OK鍵”或是“這很容易”之類的術語,因為從術語管理系統中直接插入這些常用表達式要快于重新輸入。'OfcoursewhenterminologyisinsertedintothetargettextfromtheTMS,someeditingmayberequired(e.g..toconjugateaverb),andthishasraisedaninterestingquestionregardingwhichformofatermshouldberecordedonatermfile.Traditionally,termfileshavealwayscontainedthecanonicalformofaterm(thesingularformofanoun,theinfinitiveformofaverb,themasculineformofanadjective)(Dubuc1985.80;Rondeau1984,84).However,Kenny(1999,71)hasobservedthatinordertoreducetheamountoftimespenteditingtermsthathavebeeninserteddirectlyfromTMSs,sometranslatorsarenowchoosingtorecordthemostcommonformofaterm,orindeedseveralformsofaterm,inthetermrecord,asshowninfigure4.7.Thisway,thecorrectformcanbeinsertedsimplybyclickingonit,andtherewillbenoneedtoedittheterminthetargettext.FurtherdiscussionontheintegrationofTMSsandtranslationmemorysystemscanbefoundinsection.當然,從術語管理系統中直接將術語插入到目標文本中可能需要一些編輯(如動詞變位),這就產生了一個有趣的問題,即應將何種術語格式記錄在術語文件中。傳統上講,術語文件總是包含標準格式的術語(名詞單數、動詞不定式、陽性形容詞)。然而,肯尼(1999,71)發現,為節省從術語管理系統中直接插入術語所需要的編輯時間,有些譯員選擇記錄術語最常見的一種或幾種格式,如圖4.7所示。通過這種方式,可以通過簡單地點擊將正確格式的術語插入到目標文本中,無需再次進行編輯??梢栽诠澱业骄驼闲g語管理系統和翻譯記憶系統所作出的進一步討論。4.6.4Shareabilityofinformation:networking,fileformats,andstandardsTerminology-managementsystemscanbeusedasstand-alonetools,butmoreandmore,theyarebeingnetworkedsothatseveraluserscanaccessandcontributetotheword文檔可自由復制編輯termbase.Insuchcases,itmaybedesirabletogivedifferentusersdifferenttypesofprivilegesonthenetworksystem.4.6.4信息共享性:網絡、文件格式和標準術語管理系統可以作為獨立工具使用,但他們逐漸被網絡化,以便于幾個(多個)使用者(用戶)能夠同時訪問,這有助于促進術語庫的發展。這種情況下,給不同使用者不同類型的網絡系統特權的做法是可取的。4.4.2Statisticalapproach統計學方法Themoststraightforwardstatisticalapproachtotermextractionisforatooltolookforrepeatedseriesoflexicalitems.Thefrequencythreshold(thenumberoftimesthataseriesofitemsmustberepeated)canoftenbespecifiedbytheuser.Forexample,asillustratedinfigure4.5,iftheminimumfrequencythresholdissetattwo,agivenseriesoflexicalitemsmustappearatleasttwiceinthetextinor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論