數據標注工作匯報_第1頁
數據標注工作匯報_第2頁
數據標注工作匯報_第3頁
數據標注工作匯報_第4頁
數據標注工作匯報_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據標注工作匯報什么是數據標注?當前,以互聯網、大數據、人工智能為代表的新一代信息技術日新月異。人工智能在去年、今年兩度被寫入政府工作報告。產業勃興,數據標注員因此成為新興職業。多名業內人士告訴記者,目前國內至少有大小近千家標注公司,共20余萬名數據標注員。其實大部分的工作內容很簡單的,就是聽聽語音然后把提示字幕修改一下,或者看一張圖片,把里面文字也打出來,這是我們做數據標注常常做的事,只要有電腦,就可以隨時隨地的去做任務,如果有想深入了解請加微信TYY1999-06-06第2客服錄音數據標注規范(完整版)客服錄音數據標注規范(完整版)用谷歌瀏覽器(至少32.0以上版本)來標注。其他瀏覽器或低版本谷歌瀏覽器可能出現部分文件播放不了的問題。質量要求:文字錯誤率:3%以內注:文字錯誤率指語音內容標注錯誤,只要有一個字錯,該條語音就算錯。其他錯誤率:5%以內注:綜合錯誤率指:除了語音內容以外的其他標注項錯誤,只要有一項錯,該條語音就算錯。客服語音內容說明:都是鮮百味公司和客戶的電話語音,公司主營業務是賣海鮮,所以大部分內容都是關于海鮮(如大閘蟹)的購買、禮品券、配送等方面。.當前語音是否包含有效語音無效語音(即不包含有效語音)的類型:文件播放不了;音頻全部是靜音或噪音;許多地方聽不清或者聽不懂,例如,方言太重、噪音太大、音量過低等。兩個人同時說話超過3個字(包括3個字)并且聽內容不清楚的或者噪音聲音蓋住說話人聲大于3個字(包括3個字)導致內容聽不清楚的.當前語音的噪聲情況如果能聽到明顯的噪音(噪音指說話人正常說話外的其他聲音),則選擇“含噪音”,否則選“安靜”。常見噪音舉例(但不限以下):其他人說話聲背景音樂聲動物叫聲汽車滴滴聲咳嗽聲明顯的電流聲.說話人數量(即標注的語音內容是幾個人說的)一人說話(主體說話人):只有一個人說話多人說話:有多個人說話(因為是客服語音,一般是兩個人).說話人性別如果有多個人說話,則標第一個說話人的性別。標注項:男女.是否包含口音如果有多個人說話,則標第一個說話人是否有口音。標注項:否:無口音是:有口音有口音是指說話人發音的拼音或聲調和正確發音的不一致。常見情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翹舌,以及其他情況。.語音內容如果兩個人同時說話,以主體說話人聲音大的為準來轉寫文字。如果一條語音中,低于3個字有兩個人同時說話,并聽不清楚的,將聽不清的部分用"[d]”表示。如果一條語音中,低于3個字部分噪音太大,蓋住說話人聲音導致聽不清的,將聽不清的部分用“[n]”表示。文字轉寫具體要求:語音內容必須和聽到的語音完全一致,不能多字、少字、錯字。阿拉伯數字要寫成漢字形式,如“一二三”,而不是“123”。注意區分“一”和“幺”。“二”和“兩”語氣詞:音頻中說話人清楚地講出的語氣詞,如“呃啊嗯哦唉吶”等,要按照正確發音進行轉寫。語氣詞除了“了不”沒有口字旁,其他基本上都有口字旁。轉寫內容的完整性要與實際發音一致,不得刪減;如發音為:我是北北京人;“北”字有重復現象,那轉寫的時候要寫成:我是北,北京人。英文比較復雜,轉寫的原則是:按字母讀的情況(如縮寫詞,網址等)一律大寫,按詞讀的則小寫,例如“APPLE”表示用戶是逐個字母念的,“apple”表示用戶按單詞念的。明顯的兒化音必須標注出來第3輕松標注Excel表格中的無效數據輕松標注Excel表格中的無效數據校對數據是我們在日常辦公中經常要做的工作,對于含有大量數據的表格,如何快速找到無效的錄入數據、提高我們校對的效率是不少朋友急于想了解的,今天我教大家兩招我出來的心得,希望對大家有所啟發。圖1為單位第一季度的加班統計表,領導讓會計室小卜統計出來好計發加班費以調動職工的積極性,小卜花了一晚上時間終于把全廠2000多名職工的加工統計表搞出來了,實在累得夠嗆,再也沒有精力校對了。他讓我想想辦法能不能把超出范圍的錯誤數據快速找出來,由于單位規定,每人每月的加班時間不得超過90小時(出于職工的健康著想),我給他介紹了下面的兩種辦法:圖11.使用條件格式選中表格中的數據區域(從C列到F列),單擊“格式”菜單中的“條件格式”命令,在彈出的“條件格式”的對話框的“條件1”列表中選擇“公式”,在其右側的文本框中輸入公式“=or(c190)”(如圖2),單擊“格式”按鈕,此時彈出“單元格格式”對話框,切換到“字體”選項卡,將文字“顏色”選擇為“紅色”,完成設置后依次單擊“確定”按鈕返回到數據表格中,瀏覽一下表格,是不是看到超出范圍的數字已經被標注了紅顏色,這樣改起來就方便多了。圖22.利用數據有效性圈釋無效數據一般情況下,在錄入數據之前設置數據的有效性可避免錄入超出指定范圍的非常規數據,但數據錄入完成后設置數據的有效性有什么作用呢?通過下面的介紹大家就會明白了。選中表格中需要設置有效性的數據區域,單擊“數據”菜單中的“有效性”命令,彈出“數據有效性”對話框,切換到“設置”選項卡,按圖3所示進行相應的設置,單擊“確定”按鈕返回數據表中(此時表格的數據中看不到有什么變化)。圖3右擊工具欄打開“公式審核”工具欄,單擊工具欄中的“圈釋無效數據”按鈕,此時我們會發現表格中的無效數據都被清清楚楚地標注出來了(如圖4)。圖4Cico提示:以上兩種方法都可以輕松地標注表格中的無效數據,這些無效數據只要修改到指定的范圍內,標注就會同時被取消,不會影響數據的分析和打印。第4如何運營一家數據標注公司資源特點篇如何運營一家數據標注公司(資源特點篇)在“基礎架構篇”中我們提到的資源,也就是數據標注公司要面對的甲方:AI公司、AI企業、AI研究所。那么問題來了,人工智能公司、人工智能企業、人工智能研究所多種多樣,作為一個數據標注公司應該如何定義自己的服務方向呢?首先我們要能夠準確的了解資源公司的特點,這樣才能更好的為其提供符合自身特點的服務。目前市場上的AI公司、AI企業、人1研究所大致分為以下幾種,對于與數據標注公司的合作來說他們各有各的優勢和劣勢,這里對以下突出的幾類進行分析:.初創型這里指的初創型公司一般指未進行過階段融資的初次創業型公司。優勢:a)溝通成本低初創型公司的核心創始人一般都是公司的核心技術人員,所以他們對數據標注的結果有清晰的需求認知,能夠清楚嚴謹的表述出需要標注數據的規則,數據標注公司與此類資源公司在溝通上比較簡單,能夠快速的直入主題,迅速建立供需關系,省去冗長的上報、各級的批復等溝通環節。b)結算時間快這類資源公司本身公司架構也相對簡單,對于標注完成后的結款時間相對也較短。劣勢:a)需求連貫性不強因為初創型公司很多沒有穩定的甲方,同時公司在同一時期對接的甲方數量并不是一定的,有可能在某個月中會有很多,同樣也可能一個沒有。這就導致了在數據的需求連貫性上并不是很強。b)標注需求量不大在與甲方溝通合作的路上,展示型項目產品并不需要大量數據的驗證。更多時候都是以小批量數據進行產品的小樣展示,因為初創公司也要考慮項目的成功率和標注成本之間的關系。.企業型這里指已經形成一定規模的人工智能企業,同時可能已經獲得多輪融資。優勢:a)數據連貫性強這里指的一定規模的人工智能企業可能已經是市場上第一梯隊的領跑者,因為有成熟的產品和合作對象,其在產品需要進行迭代和研發關聯產品時是需要大量標注數據作為模型訓練的。同時因為其在業界的影響力,與新的需求商進行合作時的成單率也要遠高于初創AI公司。b)數據價值高因為大型公司需要綜合保密、質量、工期等多方面因素,同時因為已經與需求公司建立了正式的合作關系,此類型的AI公司在提供的數據標注單價上是要略高于初創型企業。劣勢:a)結算周期長因為此類公司的結構相對復雜,同時結構越復雜的公司其對于支出資金的流程也越謹慎,這種謹慎就會導致合同內的結款周期遠遠高于初創型企業。b)溝通成本高因為此類公司的架構相對復雜,一般一個項目的啟動流程是“算法團隊將需求提供給項目經理,項目經理聯系數據標注公司試標-數據標注公司試標完畢反饋-項目經理檢查并反饋給算法團隊”。這其中就避免不了多人傳達規則時出現的模糊情況,需要大量的時間進行溝通和驗證。同時在項目啟動時的流程也相對復雜,不僅需要算法確認規則,需要財務確認支付方式,需要法務進行合同審核,需要項目主管領導批準,這些都會使數據標注公司的溝通成本大大增加。.科研型這里指各類政府、大學等行政事業單位的科研部門。優勢:a)結算時間短一般的科技機構的審批方式都是先進行項目報備,在項目報備通過的時候其實這部分的項目資金就已經預留出來了,只要數據標注公司能夠按時按量的完成項目內容同時提供合同內規定的相關發票,就可以順利結算。b)溝通成本低一般的科研機構都是由項目負責導師指定聯系人進行與數據標注公司的溝通,同時被指定人一般也都是項目的參與人,所以在規則的制定上更為清晰,與初創公司一樣,能夠快速的進入主題,大大節省了數據標注公司在溝通方面所花費的時間。劣勢:a)數據連貫性不強因為此類科研所的項目基本都是階段性的,一類產品上線后,相關產品再進行上線需要周期。b)找尋成本高因為科研機構的特殊性,在市場上很難準確就定位到需求部門,在眾多部門中確立需求部門并與之建立起合作關系是需要耗費大量的時間和精力。.綜合型向AI化轉型的各類傳統行業企業。優勢:a)數據連貫性強因為涉及傳統生產的轉型,該類企業一般都有獨立的AI產品研發組,同時因為此類公司本身的體量和市場占有率,會使其對于需要轉型的領域和需求產品更為寬泛。b)數據量大因為AI轉型除了成熟的技術支撐之外,最重要的就是時間,越快將生產結合AI的企業,其市場競爭力也就越明顯。而如何能讓計算機快速的進行訓練呢?除了算法團隊的技術支撐,剩下的就是給計算機提供大量的符合模型識別的標注數據。劣勢:a)結算周期長和企業型公司性質相同,由于龐大的內部結構,項目資金的結款周期相較于初創型公司和研究所會大大增長。^工期緊張因為有轉型這個宏觀任務,所以一般此類企業都對轉型項目的落地時間有明確的規定,說簡單一些就是工期緊、任務重。由于這種特點,數據標注公司在承接此類公司的項目時,需要有大量的人手進行數據標注,這對于公司本身的管理無疑也是巨大的挑戰。本文所說的每種公司都有各自的渠道獲取特點,請持續關注博客,我們會在接下來更新更多的相關內容。第5入庫數據清理清查工作匯報2012年入庫數據清理清查工作匯報根據省、市、區文件要求,將全員人口數據清理清查工作作為當前重點工作來抓,解放思想,放下包袱,深入、徹底地開展入庫數據清理清查,特別是歷年(含當年)漏報、錯報、瞞報人口出生數、“四術”數、查環查孕數、社會撫養費征收數等,全面錄入系統。現將這項工作總計如下:一、領導高度重視為了確保清理清查工作取得實效,我街道成了以街道分管領導XXX任組長,相關人員為成員的“人口計生統計數據核實清查”活動領導小組,領導小組在計生科下設辦公室,具體負責監督及統籌管理全員人口信息系統數據質量檢查、信息采集和錄入等工作。領導小組由街道分管領導陳偉元主持召開了協調會議,進一步明確了科室人員分片包干的社區工作站,根據我街道實際分為3個清理清查工作小組,整合了社區工作站各種資源,為清理清查的順利進行提供了組織和隊伍保障。二、突出重點、深化措施,確保流動人口清理清查質量流動人口管理是計劃生育工作的重點,也是難點,因此開展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論