《電力知識智能檢索流程規范》_第1頁
《電力知識智能檢索流程規范》_第2頁
《電力知識智能檢索流程規范》_第3頁
《電力知識智能檢索流程規范》_第4頁
《電力知識智能檢索流程規范》_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS國際標準分類號

CCS中國標準文獻分類號

團體標準

T/CESXXX-XXXX

電力知識智能檢索流程規范

Specificationforintelligentretrievalprocessofelectricpower

knowledge

(征求意見稿)

XXXX-XX-XX發布XXXX-XX-XX實施

中國電工技術學會發布

T/CESXXX—XXXX

電力知識智能檢索流程規范

1范圍

本文件規定了對電力知識智能檢索流程的電力知識文本基本要求、知識庫構建要求和電力知識檢

索流程要求,其中電力知識智能檢索流程主要針對電力行業文本數據。

本文件適用于國內各單位實現電力知識智能檢索流程的相關人員。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28信息技術詞匯第28部分:人工智能基本概念與專家系統

T/CESA1040-2019信息技術人工智能面向機器學習的數據標注規程

T/CES128-2022電力人工智能平臺總體架構及技術要求

T/CES156-2022電力智能交互文本訓練語料標注規范

3術語和定義

下列術語和定義適用于本文件。

3.1

電力知識electricityknowledge

指與電能的產生、傳輸和利用過程中所涉及的知識和技術。

3.2

知識庫knowledgebase

是知識工程中結構化、易操作、易利用、全面有組織的知識集群。

3.3

文本向量化textvectorization

指將文本信息表示成能夠表達文本語義的向量,即用數值向量來表示文本的語義。

3.4

向量相似度vectorsimilarity

指衡量兩個向量在數值上的接近程度的度量。

3.5

智能檢索intelligentretrieval

指計算機根據用戶的檢索詞和檢索要求,運用人工智能技術自動擴展檢索詞和構造檢索式,以滿足

用戶檢索要求的過程。

3.6

提示模版prompttemplate

指在AI大模型訓練或應用過程中,用來引導模型生成特定類型文本或解決特定任務的一種預設語

句。通過給模型提供明確的上下文信息或者參數信息,提示模板可以有效地提高模型在特定任務上的表

現。

3.7

提示prompt

1

T/CESXXX—XXXX

在AI大模型中,prompt主要是用來給模型提供提示輸入信息的上下文和輸入模型的參數信息。

4縮略語

下列縮略語適用于本文件。

LLM:大語言模型(LargeLanguageModel),也稱大型語言模型。

5總則

本文件對電力知識智能檢索流程的規范主要體現在三個方面:電力知識文本基本要求、電力知識

庫構建基本要求和電力知識檢索流程基本要求。其中,電力知識文本基本要求用于規范電力知識文本

文件的命名、存儲格式等,電力知識庫構建基本要求用于規范構建電力知識庫,電力知識檢索流程基

本要求用于規范基于電力知識庫和電力大模型的電力知識智能檢索流程。這三方面內容的具體組織框

架如圖1所示:

圖1內容組織框架

6電力知識文本基本要求

6.1存儲格式要求

電力知識文件應采用txt、docx、md、pdf存儲格式。其中,對于excel等其他格式的原始數據可

以轉換為上述存儲格式之一且應優先轉成txt存儲格式。

6.2命名要求

電力知識文本文件名稱應由三個部分組成:

a)第一部分為當前電力知識文本的專業信息;

b)第二部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;

c)第三部分為文件唯一性編號,從1開始計數;

d)這三部分用下劃線連接,且文件名稱長度和擴展名在內最大長度不超過100個字符(包含中英

文字符和特殊字符);

e)文件命名舉例:輸電線路金具部件介紹_2023-10-11_1。

6.3質量要求

電力知識文本文件的質量要求如下。

2

T/CESXXX—XXXX

a)確保一個文件中的知識都是屬于同一個細分領域、同一權限等級,且不同細分領域、不同權限

的知識不能混雜在同一個文件中;

b)電力知識數據中不應存在重復的記錄或重復的信息,以確保數據的唯一性;

c)電力知識數據中不應包含特殊字符、停用詞、HTML標簽等;

d)電力知識數據中不應包含含糊不清、模棱兩可、參考價值小、意義不大的知識內容;

e)電力知識數據中不應包含圖片、表格等數據,但可將圖片、表格中的內容提煉為文字表述且可

優先轉化成問答形式;

f)電力知識數據中包含的問答形式的數據應提供詳細和全面的答案,并確保回答符合專業要求和

語言規范。

6.4電力知識文本描述文件要求

每批次電力知識文本文件應有一個描述文件,且描述文件應滿足下述要求:

a)存儲格式應為txt格式;

b)命名應由兩個部分組成:

1)本文件創建的日期,日期格式:YYYY-MM-DD;

2)文件唯一性編號,從1開始計數;

3)文件名的各部分用下劃線連接,文件命名示例:2023-10-12_1。

c)文件內容應描述本電力知識信息的基本信息,應包括電力知識文本文件的來源、創建日期、聯

系人、文本用途等信息。

6.5安全管控

電力知識文件存儲環境應滿足安全管控要求。具體要求包括:

a)電力知識文件應存儲在指定安全機器中,同時該機器應開啟防火墻,安裝殺毒軟件,并禁用

USB接口功能;

b)存儲電力知識文件的機器中的所有數據文件需定期做好數據備份,不得擅自拷貝、傳輸,防止

數據丟失或泄露。

7電力知識庫構建基本要求

7.1文本內容拆分要求

電力知識文本內容的拆分方法應采用規則拆分或語義拆分,具體要求如下:

a)利用規則進行文本拆分應根據文本內容中常見終止符號進行拆分,且拆分后的文本長度控制在

1000內。常見文本終止符號如:單字符斷句符、中英文省略號、雙引號等。

b)利用語義拆分方法應將文本內容拆分為具有語義信息的最小塊,一般是有意義的句子,再將這

些小塊組合并成一定大小的文本段且文本段大小控制在1000內。

7.2文本向量化方法選擇要求

對拆分的文本內容進行向量化時選擇的向量化方法要求如下:

a)應選擇可以對中文文本進行向量化的方法;

b)所選向量化方法在統一評測標準中具有較好評測結果;

c)所選向量化方法在應用過程中易調用、易遷移部署。

7.3向量數據庫選擇要求

3

T/CESXXX—XXXX

向量化應存儲向量數據庫中,選擇向量數據庫的具體要求如下:

a)向量數據庫應具備較好查詢性能,可結合向量數據庫的索引技術、數據結構、硬件配置等因素

判斷向量數據庫的性能;

b)選擇的向量數據庫的存儲量應滿足電力知識數據的存儲需求;

c)所選向量數據庫應具備良好的社區支持,以便更容易地解決問題和獲取幫助。

d)根據業務需求選擇具備不同功能的向量數據庫,如部分向量數據庫提供了全文搜索功能,而另

一部分則提供了更專業的向量搜索功能。

8電力知識檢索流程基本要求

8.1總體要求

電力知識智能檢索流程基本要求具體包括問題文本內容向量化要求、向量相似度匹配要求、匹配結

果處理要求、檢索結果生成要求等,如圖2所示:

圖2電力知識檢索流程基本要求

8.2問題文本內容向量化要求

對用戶輸入的問題文本內容進行向量化操作的基本要求具體如下:

a)對用戶輸入的問題文本內容進行向量化時選擇文本向量化方法的要求應與第7章中文本向量化

要求相同;

b)選用的文本向量化方法應與第7章選用的文本向量化方法相同;

c)用戶輸入的問題文本內容向量化后應根據電力業務需求,與未向量化之前的問題文本一同寫入

指定日志文件中。

8.3向量相似度匹配要求

進行向量相似度匹配的具體要求如下:

a)應選擇合適的向量匹配算法,所選向量匹配算法能夠準確快速計算出問題文本向量與電力知識

庫中不同文本向量之間的相似度值;

b)對計算所得的相似度值按照從大到小(或者從小到大)的順序進行排序,并選取前k個相似度值

對應的文本向量作為匹配結果。其中確定k值的要求如下:

1)一般情況下,k值默認設定為3;

2)根據電力知識庫向量匹配情況,可增大或減小k值以獲取滿足業務需求的結果。

c)將獲取的k個文本向量轉換為對應的文本內容,并將文本內容按照一定方式組合成一個文本段落,

其中組合方式要求如下:

1)k個文本內容按照向量之間的匹配度(由大到小或者由小到大)直接組合成一個文本段落;

4

T/CESXXX—XXXX

2)k個文本內容打亂順序后隨機排序組合成一個文本段落。

8.3檢索結果生成要求

檢索結果生成應按照如下要求:

a)最終的檢索結果通過電力語言大模型生成;

b)電力語言大模型應由基座大模型微調得到,其中基座大模型的選則應遵循以下要求:

1)基座模型LLM應可以生成中文文本內容;

2)需根據現有硬件條件(如顯卡GPU的性能、數量、服務器數量等)選擇基座模型,且所選基座

模型LLM能夠在現有硬件環境中運行;

3)基座模型LLM應易于遷移部署,且其生成文本內容的反應時間應小于電力知識智能檢索要求

的最長反應時間;

4)基座模型可以通過提示信息及用戶指令產生指定內容;

c)電力大模型生成檢索結果應根據匹配到的電力知識內容和問題內容得到。

8.4檢索結果安全管控

檢索結果需進行安全管控,具體要求如下:

a)檢索結果應以指定形式返回,如以字典形式返回:{“檢索結果”:“電力知識檢索具體內容”}

b)檢索結果和問題內容應寫入指定日志文件;

c)針對電力行業內部人員,知識檢索結果一般在電力行業內部軟件上返回給需求人員;

d)針對非電力行業內部人員,檢索結果需對檢索結果脫敏后返回給需求人員。

5

T/CESXXX—XXXX

附錄A

資料性附錄

電力知識智能檢索提示模版應用示例

應用場景:電力知識智能檢索

步驟一:用戶輸入問題,具體問題(question)具體為:根據絕緣子的制成材料分類,絕緣子的類

型有哪些?

步驟二:從電力知識庫匹配相關文本內容并進行文本內容拼接,匹配到的具體內容(context)為:

絕緣子按安裝方式不同,可分為懸式絕緣子和支柱絕緣子;按照使用的絕緣材料的不同,可分為瓷絕緣

子、玻璃絕緣子和復合絕緣子(也稱合成絕緣子);按照使用電壓等級不同,可分為低壓絕緣子和高壓

絕緣子;按照使用的環境條件的不同,派生出污穢地區使用的耐污絕緣子;按照使用電壓種類不同,派

生出直流絕緣子;尚有各種特殊用途的絕緣子,如絕緣橫擔、半導體釉絕緣子和配電用的拉緊絕緣子、

線軸絕緣子和布線絕緣子等。此外,按照絕緣件擊穿可能性不同,又可分為A型即不可擊穿型絕緣子和

B型即可擊穿型絕緣子兩類。

步驟三:已知提示模版是:prompt_template="""已知信息:{context}。根據上述已知信息,簡潔

和專業的來回答用戶的問題。優先用已知信息的原文回答,不要解釋信息來源。如果無法從中得到答案,

請說“根據已知信息無法回答該問題”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論