DeepSeek賦能數據分析_第1頁
DeepSeek賦能數據分析_第2頁
DeepSeek賦能數據分析_第3頁
DeepSeek賦能數據分析_第4頁
DeepSeek賦能數據分析_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DeepSeek賦能數據分析武艷軍日期:2025年3月20日

目錄STNEMOC2DeepSeek本地部署3使用DeepSeek+提示詞

進行數據處理使用DeepSeek+Excel

進行數據處理1DeepSeek大模型初步4DeepSeek大模型初步01大語言模型(Large

Language

Mode

LLM),也稱預訓練模型(Pre-Trained

Model,

PTM),是一種人工智能模型,旨在理解和生成人類語言。它們在大量的文本數據上進行訓練,擁有幾十億的參數,可執行廣泛的任務,包括文本總結、翻譯、情感分析大語言模型LLM引發AI新熱潮等等。生成模型推理模型智能體?

OpenAI

GPT4o?

DeepSeek

R1?

自動駕駛機器人?

DeepSeek

V3?

OpenAIo1(當前L3)?

BERT?

OpenAIo3-mini?具身智能機器人?Gemini?

Gemini2.0?

Manus?Qwen2.5?

Grok3?

Kimi

1.5?

MetaGPTChatbot?

自然語言對話Reasoner?

基本的推理和問題解決能力Agent?代表用戶執行基本任務,具備自主行動能力Sam

Altman

:AGI發展的五個階段當前處于推理者階段,正在向智能體階段發展DeepSeek

R1推理模型開辟了中國低成本開源路徑,

引爆市場通用人工智能AGI技術發展趨勢Innovator?參與發明和創造,

增強人類的創造力和創新能力功能,獨立管理

并執行復雜的操作Organization?承擔整個組織的DeepSeek

,全稱杭州深度求索人工某著名企業。

DeepSeek是一家

創新型科技公司,成立于2023年7月17日,

使用數據蒸餾技術,得到更為精煉、有用

的數據。由知名私募巨頭幻方量化孕育而生,

專注于開發先進的大語言模型(LLM)和相關技術。DeepSeek公司

?,男,

1985年出生,

廣東省湛江市覃巴鎮米歷

嶺村人,浙江大學畢業,擁有信息與電子工程學系學士和碩

士學位某著名企業、

DeepSeek創始人。?

2008年起,

開始帶領團隊使用機器學習等技術探索全

自動量化交易,

在七年當中資金規模從8萬元增長到5億元。?2015年,

幻方量化正式成立。2016年,

幻方量化推出第一個AI模型,實現了所有量化策略的AI化轉型。2019年,其資金管理規模突破百億元。2020年開始,幻方的AI超級計算機“螢火一號”正式投入運作。2021年,

幻方投入十億建設“螢火二號”,

搭載了一萬達A100顯卡,

資產管理規模突破1000億元。?2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進軍通用人工智能領域。2024年5月,DeepSeek發布了DeepSeek-V2;

同年12月27日,

DeepSeek-V3面世。

這款性能優越且性價比極高的大語

言模型,被硅谷同行譽為“來自東方的神秘力量”。?2025年1月20日,

DeepSeek正式發布DeepSeek-R1模型;

同日,參加了總理座談會。2月17日,參加了總書記主持的民營企業家座談會。憑借約1260億美元(約合人民幣9000億元)

的個人

財富估值問鼎中國首富。DeepSeek:來自東方的神秘力量正式發布DeepSeek

R1模型,在大模型排名Arena中列第三名DeepSeek大模型發展歷程宣布開源第二代

MOE大模型DeepSeekV2推理模型DeepSeek

R1-

Lite預覽版上線發布首個大模型DeepSeek

LLMDeepSeekV3發布,并同步

開源模型權重DeepSeek開

源GEMM等核

心代碼推出DeepSeek

V2.5DeepSeek成

立2024年11月2024年12月2024年5月2023年7月2025年1月2024年9月2024年1月2025年2月DeepSeek7天實現1億用戶,成為增長最快的超級產品

DeepSeek通過核心能力突破+開源、低成本、國產化三大優勢,

推動AI技術平權和國產AI生態繁榮,成功

進入全球大模型第一梯隊,

促使行業從唯規模論向性價比、高效能、工程化方向轉變。核心能力突破DeepSeek大模型核心技術突破,實現復雜推理任務的精準處理與高效執行,覆蓋多模態場景應用。模型綜合性能躍居世界第一梯隊,技術指標與頂尖大模型相比不相上下。?DeepSeekV3可以對標GPT-4o,但訓練成本只有558萬美元,不到后者的二十分之一。?DeepSeek

R1在數據、代碼和推理任務上課對標

OpenAIo1。將國產模型與美國的代際差距從3-5年縮短至3-5個月,突破卡脖子技術瓶頸,

全面支持國內產業智能化升級。相比于OpenAI的閉源策略,DeepSeek全量開源訓練代碼、數據清洗工具及微調框架,開發者可以快速構建教育、金融、醫療等垂直領域應用,推動協同創新。開展大量模型架構優化和系統工程優化,訓練成本顯著低于行業同類模型,打破高價壁壘;推理成本降低83%,API定價為行業平均價格的1/10,千億參數模型適配中小企業需求,加速商業化落地。DeepSeek大火的原因:核心能力突破、開源、超低成本、國產化

開源超低成本國產化DeepSeek使用方式02直接使用?

電腦端訪問官網(

ek)或第三方百度搜索、騰訊元寶等?

手機端下載DeepSeek

AppAPI調用API調用:

DeepSeek、硅基流動、阿里百煉、火山引擎等。獲取API秘鑰調用,適合開發者集成。本地部署個人部署:個人在本地設備運行應用,依賴自身資源。企業部署:企業內網搭建私有化系統,支持多用戶協作,

數據更加安全。一體機:直接購買部署了DeepSeek模型的具備一定算力的一體機。推理模型基座模型特點DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B蒸餾模型,能力稍弱實際上是增加了推理能力的Qwen模型和

Llama模型DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-IntructDeepSeek-R1-671BDeepSeek-V3-Base滿血版,能力最強大模型私有化部署方式:?Ollama部署:個人本地部署,方便快速,適用于蒸餾模型?vLLM部署:生產、開發、垂直領域私有化部署,精度可控,

更專業

?

其他模型簡稱CPU要求內存要求GPU要求硬盤空間適用場景1.5B4核(Intel/AMD)8GB無(純CPU)或

2GB(GPU加速)3GB+舊筆記本電腦,簡單文本生成7B4核(多線程支持)16GB4GB8GB+本地開發測試,輕量級NLP任務8B6核16GB6GB8GB+代碼生成,邏輯推理14B8核32GB8GB15GB+企業級文本分析,長文本生成32B12核48GB16GB19GB+復雜場景對話,深度思考任務70B16核(服務器級)64GB24GB(多卡)70GB+創意寫作、算法設計671B32核(服務器集群)128GB80GB(4張A100)300GB+科研級任務,AGI探索最低配置指模型可以運行,但流暢度稍差。模型簡稱CPU要求內存要求GPU要求硬盤空間適用場景1.5B6核(現代多核)16GB4GB(如GTX1650)5GB+實時聊天機器人、物聯網設備7B8核(現代多核)32GB8GB(如RTX3070)10GB+文本摘要、多輪對話系統8B10核(多線程)32GB10GB12GB+高精度輕量級任務14B12核64GB16GB(如RTX4090)20GB+合同分析、論文輔助寫作32B16核(如i9/Ryzen

9)128GB24GB(如RTX4090)30GB+法律/醫療咨詢、多模態預處理70B32核(服務器級)256GB40GB(如2張A100)100GB+金融預測、大規模數據分析671B64核(服務器集群)512GB160GB(8張A100)500GB+國家級AI研究、氣候建模推薦配置指模型可以流暢運行。1.入門級:直接使用方式對于個人來說最為方便,需要聯網。2.進階級:個人可以在本地部署小規模蒸餾模型,比如1.5B、

7B,建議使用Ollama來部署。3.進階級:個人可以在部分工具(比如Excel)中調用API。使用DeepSeek+提示詞進行數據處理03任務目標背景M2M3負面限定給誰用擔心的問題做什么期望效果DeepSeek提示詞技巧:通用公式內心戲很多M1M4我要做XXX,要給XXX用,希望達到XXX效果,但擔心XXX問題例如:我要做一個山東三日游攻略,

給大學生用,

希望行程充實有趣,但擔心預算不夠影響體驗。DeepSeek提示詞技巧:通用公式深度思考正式

答?

DeepSeek提供強大的

數據診斷功能,幫助用

戶識別缺失值、異常值

和重復數據等問題,提

供數據質量報告。?

DeepSeek可以開展標

準化、歸一化處理,

動填充缺失值和標注關

鍵變量影響因子。?

DeepSeek提供了豐富的統計分析功能,包括描述性統計、回歸分析、聚類分析等。用戶只需輸入相關數據,DeepSeek即可自動進行分析,并生成詳細的統計報告?

DeepSeek可以幫助用

戶快速收集和處理大量

數據,生成數據提取腳

本,支持從各種來源導

入數據,包括Excel文件等?用戶可以將DeepSeek的分析結果與PowerBI等工具結合,進行數

據可視化,從而更直觀

地展示分析結果?

自動生成專業的分析報

告。報告中包含數據概

覽、分析結果、可視化

圖表等05數據

可視化03數據

預處理DeepSeek賦能數據分析過程數據

分析數據

收集報告

撰寫問題定義02040106嵌入DS模型提示詞工程DataAgentChatBIDeepSeek賦能數據分析的四種方式Excel、PowerBI核心痛點:用戶行為日志中30%字段缺失,且存在異常值,例如:異常時間戳(如:2999-01-01)。傳統方式:手動寫Python逐行排查,耗時。DeepSeek操作步驟一:輸入提示詞。#

DeepSeek生成代碼df['user_id'].fillna(method='ffill',

inplace=True)df['device_type'].fillna('未知',

inplace=True)df

=df[df['timestamp']

<=

pd.Timestamp.now()]df['price']

=df['price'].str.replace('$',

'').astype(float)請修復以下數據的質量問題:1.缺失值:用前向填充補全user_id,device_type用“未知”填充2.異常值:刪除timestamp超過當前時間的數據行3.格式統一:將price從字符串“$12.5”轉為數值“12.5”場景1:數據清洗

核心價值:清洗耗時從3小時→

1分鐘,準確率100%。步驟二:生成代碼。案例說明:某電商Q2銷售額環比下降15%,業務方歸咎「流量不足」。DeepSeek操作步驟一:上傳數據集。包含流量、轉化率、客單價等指標。步驟二:提出問題。“請分析GMV下降的核心因素,并量化貢獻度”。步驟三:輸出結果。根本原因:轉化率從2.8%下降到1.9%(貢獻下降70%)細分洞察:-

搜索頁->詳情頁流失率上升25%(頁面加載時長增加3秒)-

加購->支付失敗率上升18%(因優惠券校驗接口超時)核心價值:避免被錯誤歸因,節省1-2天手動拆解時間。DeepSeek提問錯誤示范:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論