wordsmith_中文_說明_第1頁
wordsmith_中文_說明_第2頁
wordsmith_中文_說明_第3頁
wordsmith_中文_說明_第4頁
wordsmith_中文_說明_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 i. wordsmith tools 簡介: wordsmith tools 是一個在window下運行的用來觀測文字在文本中的表現(xiàn)的功能強大的綜合軟件包。它共包含 concord (語境共現(xiàn)檢索工具)、wordlist (詞頻列表檢索工具)、keywords(關(guān)鍵詞檢索工具)、splitter(文本分割工具)、text converter (文本替換工具)、viewer(文本瀏覽工具)等六個程序,其中前面三個程序是主要的文本檢索工具,后面三個程序?qū)儆谳o助性工具。這六個程序的各項設(shè)置由一個叫wordsmith tools controller(文字匠工具控制器)的程序來控制。ii各個工具的操

2、作和主要功能介紹:1concord1)基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當(dāng)該選項打開,你就會看到concord。單擊它,concord的窗口將打開。u 按下按鈕,將出現(xiàn)一個對話框,選擇將進行語境共現(xiàn)檢索的文本文件。u 確定一個檢索詞或短語。u 如果要改變設(shè)置,按horizons etc按鈕,對缺省的設(shè)置值進行修改。u 按 start concordance 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢索結(jié)束,結(jié)果顯示在concord 的窗口。u 如果要保留語境共現(xiàn)檢索的結(jié)果,按按鈕存盤。 2)主要的功能:u 語境共現(xiàn)(conco

3、rdance):l 語境共現(xiàn)(concordance)的窗口顯示:語境共現(xiàn)(concordance)的窗口包括六個縱列,例如:a. n 列:顯示檢索項的數(shù)目。b. concordance 列:顯示語境共現(xiàn)檢索的結(jié)果。c. set 列:在這一列,用戶可以使用任何字母對條目進行分類。例如,如果你想對檢索詞的動詞和名詞用法進行歸類,你可以鍵入字母v或n。要清除鍵入的字母,按0(零)。d. tag 列:顯示最接近的標記符號。e. word no. 列:顯示檢索詞在文本中的位置。例如,上面例子中條目1 的檢索詞good 是文本的2,265個單詞。f. file 列:顯示源文本的文件名。g. % 列:以百

4、分比的形式顯示檢索詞在文本中的位置。l 要想得到有關(guān)語境共現(xiàn)檢索的結(jié)果的更多的信息,按下面的按鈕: 按 按鈕 ,可增加語境共現(xiàn)檢索的結(jié)果每行的顯示量,按按鈕 ,可減少語境共現(xiàn)檢索的結(jié)果每行的顯示量。 按()按鈕,可啟動文本瀏覽工具(viewer),對源文本進行查看。 按按鈕,可查看檢索詞在規(guī)定的語境范圍內(nèi)的搭配詞的情況。例如,下圖是在上例中檢索詞good在左右各五個詞的語境范圍內(nèi)的搭配詞的情況。從圖中可以知道,搭配詞very共出現(xiàn)29次,其中在good的左邊26次,右邊3次,而在左邊的26次中有23次是作為左邊的第一個單詞出現(xiàn)。 按()按鈕,可打開檢索詞分布圖窗口。檢索詞分布圖窗口顯示的內(nèi)容如

5、下:file源文本文件名words源文本文件中單詞的數(shù)目hits找到的檢索詞的數(shù)目per 1,000每千字檢索詞的數(shù)目plot檢索詞分布圖顯示檢索詞在文本中出現(xiàn)的位置 按按鈕,concord將檢索語境共現(xiàn)檢索的結(jié)果中的句子,找出重復(fù)出現(xiàn)的字串(word clusters)。字串的大小的推薦值一般為24個字,最低出現(xiàn)率為3個。例如: 按()按鈕,打開用詞類型(patterns)窗口,顯示臨近檢索詞的單詞的統(tǒng)計資料。這些單詞按出現(xiàn)頻率的高低從高到低排列。例如:u 取消檢索詞 按空格鍵或選擇窗口view選項中的blanked out, 語境共現(xiàn)檢索的結(jié)果中的檢索詞將被一行星號代替。要恢復(fù)檢索詞,重復(fù)

6、一次前面的操作。u 對語境共現(xiàn)檢索的結(jié)果重新排序 語境共現(xiàn)檢索進行時,檢索的結(jié)果是以語境在文本中的出現(xiàn)順序排列的。當(dāng)語境共現(xiàn)檢索一完成,它就會以當(dāng)時的缺省設(shè)置進行重新排序。如果不想重新排序,將缺省值設(shè)定在file, file 位置。語境共現(xiàn)檢索的結(jié)果重新排序有以下幾種方式:a. 根據(jù)檢索詞的左或右的某個位置的單詞進行排序。b. 根據(jù)檢索詞本身進行排序。c. 如果有語境詞,可根據(jù)語境詞進行排序。d. 根據(jù)最近的標碼符號進行排序。e. 根據(jù)與最近的標碼符號的距離進行排序。f. 根據(jù)用戶自己的分類進行排序。g. 根據(jù)在文本中的出現(xiàn)順序排序。 語境共現(xiàn)檢索結(jié)果的重新排序,可以根據(jù)三重標準同時進行。這三

7、重標準分別在main sort, then by, finally by 三個對話框中設(shè)定。另外,重新排序時,可以設(shè)置區(qū)分或不區(qū)分大小寫,按升序還是降序排列,既可以將所有的檢索項重新排序,也可以設(shè)定將一定范圍內(nèi)的檢索項重新排序。u 保存和打印語境共現(xiàn)檢索結(jié)果 可以將語境共現(xiàn)檢索的結(jié)果保存為文本文件或是可以在concord再打開的文件。按下f3 或選擇file 的print選項,將打印語境共現(xiàn)檢索的結(jié)果。3)參數(shù)設(shè)置:u 檢索詞(search word):a. 檢索詞可以是一個單詞,一個短語或是一個包含許多檢索詞的文本文件。b. 按照缺省設(shè)置,concord進行的是不區(qū)分大小寫的整詞檢索。格式如

8、下:檢索詞結(jié)果bookbook or book or bookbookbook, books, booking, booked*booktextbook (but not textbooks)bo* inbook in, books in, booking in (but not book into)book * hotelbook a hotel, book the hotel, book my hotelbo* in*book in, books in, booking in, book intobook?book, books, book; book.bookbook, booksbkb

9、ook, back, bank, etc.=book=book (but not book or book)book/paperbackbook or paperback符號意義例子*代表多個任意字符book*?代表單個任意字符(包括標點符號)engl?代表單個任意字母frnc=區(qū)分大小寫=french=fr*=:表示一個可包含多達500 個檢索詞的文本文件 (參看幫助中的 file-based search words)c:textfrd.txt/分隔多個檢索詞。你可以選擇多達15個檢索詞,但字符的總數(shù)不能超過80。may/can/will如果要使用 *, ? , = , , : or /

10、作為檢索詞中的一個字符,要將這些符號放到雙引號內(nèi),例如:*why?and/or:u 語境詞(context word):a. 為了限制語境共現(xiàn)的檢索,可以指定一個語境詞在檢索詞的規(guī)定的語境范圍內(nèi)出現(xiàn)或不出現(xiàn)。b. 語境詞的輸入格式與檢索詞的相同,只有一個不同的符號 。表示該詞在規(guī)定的語境范圍內(nèi)不出現(xiàn)。例如:當(dāng)search word是book 而 context word是 hotel* 時, concord將只會找到hotel or hotels 出現(xiàn)在其語境范圍內(nèi)的book 。當(dāng)search word是book 而 context word是 paper* 時, concord將只會找到pa

11、per or papers 不出現(xiàn)在其語境范圍內(nèi)的book 。u 語境范圍(horizons): 語境范圍設(shè)置限定在語境共現(xiàn)中檢索詞的左右兩邊各可以出現(xiàn)多少個單詞。最高值是 左右兩邊各可出現(xiàn)25個單詞。u 檢索項的數(shù)目(entries wanted): 語境共現(xiàn)中檢索項的數(shù)目的最大值可達16,368 行。 但用戶可以在 controller 的adjust settings | concord選項中對檢索項的數(shù)目自行定義,還可以設(shè)定concord 對檢索項進行隨機抽取。u 搭配詞(collocate): 搭配詞的最短長度為一個字母,最低出現(xiàn)頻率為一次。但是在語境共現(xiàn)中出現(xiàn)一兩次的搭配詞是不能說

12、明什么問題的。用戶可以在 controller 的adjust settings | concord選項中對搭配詞的最短長度和最低出現(xiàn)頻率自行定義。2wordlist1) 基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當(dāng)該選項打開,你就會看到wordlist。單擊它,wordlist的窗口將打開。u 按下按鈕,將出現(xiàn)一個對話框,選擇一個或多個文本文件。u 按 make a word list now 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢索結(jié)束,wordlist出現(xiàn)三個窗口顯示檢索結(jié)果。這三個窗口分別顯示以字母為序的詞頻列表,以頻率為

13、序的詞頻列表以及綜合統(tǒng)計數(shù)據(jù)。u 如果要保留詞頻列表的結(jié)果,按按鈕存盤。 2) 主要的功能:u 創(chuàng)建詞頻列表(word lists):l 詞頻列表(word lists)的窗口顯示: 以字母為序的詞頻列表的窗口(部分)顯示如下: 以頻率為序的詞頻列表的窗口(部分)顯示如下: 綜合統(tǒng)計數(shù)據(jù)的窗口(部分)顯示如下: u 創(chuàng)建單詞索引列表(index lists): 單詞索引列表的作用是記錄所有單詞在文本中的位置,以便了解每個詞在文本的那一部分出現(xiàn)。另一作用是加快對列表中單詞的檢索處理,例如,如果選擇列表中一個或多個單詞,按下按鈕,就會得到快速的語境共現(xiàn)檢索的結(jié)果。另外,在單詞索引列表中,還可以計算

14、單詞與那些詞搭配以及與搭配詞的相關(guān)值( “mutual information” scores)l 建立單詞索引列表 打開 controller, 選擇adjust settings | indexing 選項,進行以下的設(shè)置:a. 確定單詞索引列表的路徑和文件名。b. 激活actitated對話框。c. 激活file order too對話框(非必選)。d. 選擇出現(xiàn)多少次的高頻詞要被刪除。e. 按ok按鈕。 打開wordlist, 選擇菜單index的new index 選項, 指定要進行操作的文本文件,再選擇index的new index 選項。檢索結(jié)束,將在指定的路徑生成三個擴展名分別

15、是*.wdx, *.xfo, 和*.xal的文件。l 瀏覽建立的單詞索引列表: 打開wordlist, 選擇菜單index的 alphabetical list 選項或file order list 選項。選定要打開的單詞索引列表文件,就可以瀏覽建立的單詞索引列表。例如: l 計算相關(guān)值(mutual information):a. 要計算相關(guān)值,單詞索引列表必須是在激活了 “file order too” 復(fù)選框的情況下建立的。b. 選擇菜單index的 alphabetical list 選項,打開建立的單詞索引列表。c. 按按鈕,選擇要計算相關(guān)值的詞條,然后按按鈕。如果沒有選擇任何詞條,

16、按按鈕將計算單詞索引列表的所有詞條的相關(guān)值。例如,在上圖中,詞條answer在文本的最常見的搭詞是know,它們的相關(guān)值4.48。u 詞頻列表的批處理 用戶可以一次選擇多個文本進行詞頻列表的創(chuàng)建。例如,選擇10個文本同時進行詞頻列表,既可以得出一個基于10個文本的大的詞頻列表,也可以得出十個分別基于10個文本的的詞頻列表。u 字串的詞頻列表: 詞頻列表不必一定以單詞為單位,也可以以2-8個單詞的字串為單位創(chuàng)建詞頻列表。選擇wordlist 主菜單的 settings | min. & max. frequencies 選項,激活復(fù)選框,選擇字串的大小,就可以進行字串的詞頻列表。u 對詞頻列表的

17、編輯:l 合并詞條到同一詞類(lemmatisation): 例如,你可以將屬于不同類型(type)的詞條want; wants; wanting; wanted 合并到同一詞類(lemma) want中。 手動合并:a. 使用 f5 選定要合并的詞條, 第一個被選定的詞條將成為詞類(lemma)的名稱(head)。b. 使用 f4 可將所有選定的詞條合并。 基于文件的合并: 建立一個將屬于同一詞類的不同類型(type)的詞分組歸類的文本文件(例如,be-was, is ,were, am, are go-goes, going, went, gone)。按按鈕,wordlist將根據(jù)文本文件

18、的分類為標準對當(dāng)前詞頻列表的所有詞條進行詞類(lemma)合并。l 詞類(lemma)合并結(jié)束后,按按鈕,將顯示重新計算的綜合數(shù)據(jù)。u 詞頻列表的排序:l 按按紐或f6,可對詞頻列表重新排序。l 選擇正確的語言:許多語言有自己特殊的字母排列順序,所以在排序或重新排序之前,應(yīng)檢查是否在語言選項選擇了正確的語言。另外,在缺省值中,某些語言中的帶重讀符號的字母與不帶重讀符號的同一字母是同等對待的。l 按單詞結(jié)尾排序:選擇反向排序選項(reverse sort), 可以按單詞的結(jié)尾的字母順序排序。這樣,就能將以某種后綴結(jié)尾的單詞,例如,-ing 形式結(jié)尾的單詞列在一起。u 比較兩個詞頻列表:選擇wor

19、dlist中 comparison菜單下的 compare 2 wordlists 選項,選中兩個要進行對比的詞頻列表,就可以對兩個詞頻列表進行比較。這一功能可以幫助進行文體方面的比較。例如,比較一篇文章的不同譯本中對某個詞的不同翻譯。u 簡單一致性分析:consistency analysis (simple)這一功能可以對超過五十個詞頻列表一次性進行比較分析,然后生成一個基于所有文本的詞頻列表。這一功能可以幫助找出哪些詞是在大量的某一特定類型的文本中一貫出現(xiàn)的。u 詳細一致性分析:consistency analysis (detailed)這一功能與簡單一致性分析的功能完全一樣,只是提供

20、的分析更為詳細,而且進行分析的詞頻列表不能超過五十個。這一功能可以幫助進行文體方面的比較。3keywords1)主要功能:u keywords 主要作用是確定某個文本的關(guān)鍵詞是什么以及它們在文本中的位置。要實現(xiàn)著這一目的,必須先用wordlist 工具建立兩個單詞列表。這兩個單詞列表中,一個是根據(jù)要考察的文本建立的,而另一個作為參照的單詞列表,必須是根據(jù)較大型的由同類文本組成的語料庫建立的。大的單詞列表將為比較提供背景數(shù)據(jù)。u 文本中的關(guān)鍵詞(key words),是指在兩個單詞列表的比較中得出的那些在所考察文本中出現(xiàn)頻率突出的詞。得出的關(guān)鍵詞以它們在文本中的出現(xiàn)頻率的突出程度由高到低排列。u

21、 keywords 的潛在用途包括:語言教學(xué),文體研究,文本內(nèi)容分析,文本歸檔等。2)keywords 的參數(shù)設(shè)置在controller中的adjust settings/keywords 選項下,可以對以下的參數(shù)進行設(shè)置:a 最大的p值。b 關(guān)鍵詞列表的最大數(shù)目。(缺省值是500)c 關(guān)鍵詞在所考察文本中的最低出現(xiàn)頻率。(缺省值是3次)3) 基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當(dāng)該選項打開,你就會看到keywords。單擊它,keywords的窗口將打開。u 按下按鈕,將出現(xiàn)一個對話框,在對話框選擇一個要進行研究的單詞列表和一個作

22、為參照的單詞列表。 u 按 ok 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢索結(jié)束,keywords出現(xiàn)一個窗口顯示關(guān)鍵詞列表。 u 如果要保留關(guān)鍵詞列表的結(jié)果,按 按鈕存盤。u 關(guān)鍵詞列表的顯示窗口包括以下內(nèi)容(見下圖):a 每個關(guān)鍵詞。b 關(guān)鍵詞在所考察的文本中的出現(xiàn)頻率。c 要考察的文本的文件名及百分比。d 關(guān)鍵詞在參照文本中的出現(xiàn)頻率。e 參照文本的文件名及百分比。f 關(guān)鍵詞的關(guān)鍵值。g p 值。4)對關(guān)鍵詞列表的結(jié)果的編輯:u 按窗口中的按紐,將會顯示關(guān)鍵詞在文本中的分布圖。u 每按一次按紐,關(guān)鍵詞列表的結(jié)果將會按照下面的順序循環(huán)排序:以關(guān)鍵值為序,以字母為序,以在考察文本中的關(guān)鍵詞的頻率為序,以在參照文本中的關(guān)鍵詞的頻率為序。iii三個輔助工具主要功能簡紹:4splitter(文本分割工具)splitter的用途是為了文本分析的目的將大的文件分割成小的文本。它通過在大的文本中插入某個符號,例如 , splitter將自動識別這些符號,將大的文本分割成若干個小文本。5t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論