騰訊安全BOT管理白皮書_第1頁
騰訊安全BOT管理白皮書_第2頁
騰訊安全BOT管理白皮書_第3頁
騰訊安全BOT管理白皮書_第4頁
騰訊安全BOT管理白皮書_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 HYPERLINK / 揭秘BOT流量防范新型攻擊BOT 流量是指在互聯網上對 Web 網站、APP 應用、API 接口通過工具腳本、爬蟲程序或模擬器等非人工手動操作訪問的自動化程序流量,一般也稱為機器人流量。據第三方調研報告統計,2021 年的 BOT 流量請求占比已經超過人工的訪問流量。而 BOT 流量也與我們日常生活密不可分,不管是搶票搶菜,還是領券帶貨,我們甚至在不經意中就參與其中。當然,BOT 流量也并非都是惡意的,也存在良好 BOT 流量,如搜索引擎、統計和廣告程序等正常流量能提升網站排名,進行網站監控提升用戶體驗。惡意的流量通過利用代理或秒撥 IP、手機群控等手段來爬取信息數據

2、、搶刷接口、薅羊毛、外掛作弊等惡意攻擊行為,對業務帶來信息泄露、資金損失等風險損害網站和用戶的利益。下面將從流量構成和攻擊特征來了解和認識 BOT 流量,然后深入剖析常見類型的 BOT 組成、使用場景和危害進一步加深對 BOT 的認知,接著全面介紹業界主流的 BOT 攻擊對抗方案,提供惡意 BOT 流量防護思路,最后整體介紹 BOT市場規模及趨勢分析。2022 年上半年 BOT 流量分析主要觀點BOT 流量占比逐年上升 02BOT 攻擊產業化、普及化、自動化 03BOT 常見類型與對抗手段BOT 常見類型 07BOT 主要對抗手段 10年上半年 BOT 流量現狀分析常規的 BOT 對抗方案基于

3、規則情報的 Anti-BOT 方案 15基于客戶端風險的 Anti-BOT 方案 16基于機器學習+ AI 的 Anti-BOT 方案 19基于規則情報+客戶端風險識別+機器學習+ AI 的 Anti-BOT 方案 20BOT 市場規模與行業分析市場規模與預期 22疫情中 BOT 的趨勢變化網絡攻擊成為 BOT 新興攻擊流量 23來自不同網絡類型的流量分布更加均勻,來自基站的網絡流量增加隨著技術的不斷迭代,滑動驗證碼在識別 BOT 流量上的效率有所降低 24游戲、零售和電子商務行業受到 BOT 攻擊最多2022 年上半年 BOT流量分析主要觀點BOT流量占比逐年上升2022 年上半年平均每月

4、BOT 流量占整體流量63%,惡意 BOT 流量占整體流量27%,惡意 BOT 流量增長趨勢迅猛多端混雜,攻擊目標從業務資源型 BOT 逐步切換為針對業務內容的 API 型 BOT,多端 BOT 流量混雜,對 BOT 防護的粒度有較大的要求。2022 年上半年平均每月的 Web 應用的攻擊流量中, BOT 與 CC 攻擊流量占據整體網絡攻擊流量的 80% ,針對業務攻擊流量遠大于 Web 應用攻擊流量, 環比 2021 上半年的攻擊流量數據,BOT 攻擊流量整體上漲幅度為 5% 。2022 年上半年 BOT 攻擊流量平均每月達到 110 億+ 攻擊流量,CC 攻擊流量為 63 億攻擊流量。現網

5、上的主要攻擊流量類型以業務攻擊流量為主。攻擊TOP10BOT 自動化攻擊流量不再僅偽裝瀏覽器發 起,在多端混雜上更進一步 后增加補充 隨著 居家辦公及移動辦公的普及,Web 應用上的流量不再僅僅局限于瀏覽器。小程序、APP 逐漸成為新生的流量載體,BOT 流量也隨著時代開始改變,BOT 自動化的攻擊流量不再局限于偽裝瀏覽器,網多端混雜更進一步。BOT 攔截 CC 策略攔截自定義策略 IP 黑名單惡意掃描 SQL 注入攻擊命令注入攻擊 XSS 攻擊地域封禁攔截BOT 攻擊產業化、普及化、自動化2022 年上半年 BOT 上下游產業鏈密切配合持續豐富,攻擊者提供的攻擊服務產業化,攻擊者形成 Baa

6、S(BOT as a Service) 趨勢。BOT 攻擊者的上下游供應鏈繼續豐富,云上提供的相關服務內容增多、除了攻擊者常用喜愛的 IDC、VPS 此類較傳統的機器外,可選擇使用路徑更加多,如近幾年新興的云函數、 Serverless、無服務計算、云真機等等技術發展的興起,部分攻擊者使用的資源/機器資源切換手段從老式的自己購買 VPS / IDC 搭建基礎環境,變換為使用云函數、Serverless、無服務計算、云真機進行低成本的機器資源的模擬及使用,并形成相關的服務信息。BOT 使用供應鏈相關資源配置的豐富外,很多攻擊者會使用一些來自商業化的配置工具進行訪問,如代理服務商、VPN 服務商、

7、模擬器服務商、沙盒服務商等上下游資源供應鏈。除了自建業務應用外,使用上下游成熟的業務也不在少數,BOT 攻擊者通過購買現有商業化的資源替換方案,通過商業化的模擬器、沙盒、IP 代理,實現業務資源的快速 Anti-BOT 對抗。部分 BOT 攻擊者整合了上下游供應鏈的信息,通過低代碼的方式,為有需要的攻擊者提供自動化 IP 變換、自動對抗驗證碼、自動化沙盒等對抗技術,分攤降低 Anti-BOT 對抗的成本,實現 BaaS(Bot as a Service 成為新寵兒)化服務方式。2022 年上半年 BOT 攻擊的使用手段及技術更加普及,BOT 流量的發起也不再局限于灰黑產業務中。隨著信息傳播的加

8、速,BOT 利用工具也在不斷的傳播,BOT工具使用人員不再局限于灰黑產業務人員中。疫情下,網絡空間的流量發展更進一步,很多業務數據從線下實體,延伸至線上服務。從之前的火車票搶訂、酒品搶購、醫院掛號再到生活物資的購買,都逐漸從線下逐步切換到了線上,“黃牛黨”、“羊毛黨”等使用 BOT 技術的人員群體為主要 BOT 流量發起者, 但是隨著時間的逐漸遷移,部分“黃牛黨”將 BOT 工具通過分銷的形式進行售賣,并提供相關技術支持,部分正常用戶也可以通過利用這種 BOT 程序,對業務進行惡意 BOT 訪問。信息技術不斷發展,打造 BOT 工具的門檻持續降低,部分用戶選擇自建 BOT 工具發起 BOT 流

9、量。隨著計算機信息技術的不斷普及傳播,部分惡意用戶嘗試通過已有的技術,自己編寫 BOT 相關工具對業務進行重復性 BOT 訪問,并將這類 BOT 工具在公開代碼平臺、社交平臺上進行傳播,使得部分正常用戶也會使用 BOT 工具,在沒意識到是攻擊行為的情況下對業務進行 BOT 訪問和攻擊,從而影響了業務的正常運行。 2022 年上半年 BOT 技術手段變化多樣,惡意 BOT 流量的識別和防護難度增加。基礎資源調度更加便利,隨著 win 11 WSA(Windows Subsystem Android)這個新特性的發布,更多的攻擊者通過利用 WSA 對業務進行擬真訪問,解除了之前的傳統模擬器中系統應

10、用版本的低問題,BOT 流量識別難度加大。技術手段更進一步,隨著 Chrome Devel- op Protocol、Playwright 等操控自動化操作工具的逐漸完善,在端上識別瀏覽器被操控的難度逐漸增加,如果要完全處置此類 BOT 手法,會造成在移動端上的大量碰撞,誤傷正常用戶,BOT 識別難度加大。最近一年中 BOT 攻擊者的發起網絡請求的位置更加偏向從住宅 IP 中發起,IP 類型從傳統的 IDC、VPN 側發起,逐漸變為混淆度極高的住宅 IP、基站 IP。BOT攻擊流量混淆在里面,處置攻擊者的同時更容易誤傷正常訪問用戶。BOT 相關工具廣泛傳播,正常用戶也會使用 BOT 相關工具,

11、如果配置不當,易造成相關客情輿論,造成防護規則難度加大。2022 年上半年 網絡攻擊類更加自動化、武器化。網絡攻擊者利用 BOT 對網絡空間進行大面積的掃描攻擊,從漏洞 POC 發現到 BOT 的自動化利用時間間隔大幅度降低。需要強有力的對抗自動化網絡武器的手段。漏洞爆發迅速,攻擊者利用 BOT 工具對網絡進行大規模掃描,在漏洞爆出的初期,快速實現 Web 應用攻擊掃描,如在 2021 年底爆發的 Log4j2 漏洞,攻擊者在漏洞公布后的幾個小時內就已經開始全網大規模的掃描。除了基礎安全規則的防護外,需要一個更加有力的手段,用于對抗此類自動化的批量掃描工具。除此之外,攻擊者為了達成目的,會使用

12、自動化模糊測試的手段,對敏感業務的接口字段進行安全防護繞過,以獲取相關的敏感業務資產信息。如果對此類繞過探測手段沒有比較好的防護措施,將會使敏感的基礎設施的權限、數據敏感信息被黑客竊取,造成業務資產損失。BOT 常見類型與對抗手段爬蟲機器人BOT 常見類型爬蟲機器人,也稱為網絡蜘蛛或爬蟲,通過跟蹤超鏈接瀏覽網絡,目的是檢索和索引網絡內容。蜘蛛下載 HTML 和其他資源,例如 CSS、JavaScript 和圖像,并使用它們來處理站點內容。如果您有大量網頁,您可以將 robots.txt 文件放在您的網絡服務器的根目錄中,并通過自定義設置并向爬蟲機器人提供說明,指定它們可以抓取您網站的哪些部分以

13、及頻率。抓取機器人抓取機器人是從網站讀取數據的機器人,目的是離線保存數據并使其能夠重復使用。抓取機器人可能抓去網頁的全部內容或特定的 API 數據以獲取特定的數據,例如電子商務網站上產品的名稱和價格以及詳情圖片。網頁抓取是一個灰色地帶,在某些情況下抓取是合法的,并且可能會得到網站所有者的許可。在其他情況下,機器人操作員可能會違反網站使用條款,或者更糟糕的是利用抓取來竊取敏感或受版權保護的內容。垃圾郵件機器人垃圾郵件機器人是一種互聯網應用程序,旨在收集垃圾郵件列表的電子郵件地址。垃圾郵件機器人可以利用電子郵件地址的獨特格式從網站、社交媒體網站、企業和組織收集電子郵件。在攻擊者積累了大量電子郵件地

14、址/或使用臨時郵箱后,他們不僅可以使用它們發送垃圾郵件,還可以用于其他邪惡目的:將電子郵件與常用密碼配 憑據對,以獲取未經授權的帳戶破解訪問權限。表單垃圾郵件自動將垃圾郵件(例如廣告或惡意軟件鏈接)插入熱門網站的表單中,通常是評論或反饋表單。社交媒體機器人社交媒體機器人在社交媒體網絡上運行,用于自動生成消息、倡導想法、充當用戶的追隨者,以及作為虛假賬戶自己獲得追隨者。社交機器人可用于滲透人群并用于傳播特定想法。由于對其活動沒有嚴格的規定,社交機器人在網絡輿論中扮演著重要角色。通過利用大量注冊的虛假賬控評戶,對社交媒體中的相關評論區進行刷屏控評,控制相關輿論信息。定向引流通過利用大量注冊的虛假賬

15、戶,對社交媒體中的相關評論區進行特定數據引流,引導正常用戶到宜昌的頁面中。社交機器人可以創建虛假帳戶(盡管隨著社交網絡變得越來越復雜,這變得越來越困難),放大機器人操作員的信息,并產生虛假的追隨者/喜歡。很難識別和緩解社交機器人,因為它們可以表現出與真實用戶非常相似的行為。下載機器人下載機器人是可用于自動下載軟件或移動應用程序的自動化程序。它們可用于影響下載統計數據,例如在熱門應用商店獲得更多下載,并幫助新應用登上排行榜榜首。它們還可用于攻擊下載站點,創建虛假下載作為應用層拒絕服務 ( DoS ) 攻擊的一部分。下載機器人通過創建下載鏈接,影響業務帶寬,造成正常用戶的不可訪問,影響正常業務訪問

16、。狙擊手機器人狙擊手機器人是一種自動購買熱門活動門票、購買熱銷商品、熱銷旅游票務的方式,目的是轉售這些商品以獲取利潤。這種活動在許多國家都是非法的,即使沒有被法律禁止,對活動組織者、售票者和消費者來說也是一種煩惱。Sniper Bots 往往非常復雜,會模仿人類搶購的行為。在許多搶購領域,自動機器人購買的票的比例在 40-95% 之間。攻擊機器人攻擊機器人用于在漏洞爆發時期,被攻擊者載入攻擊載荷從而實現大規模的 Web 應用漏洞攻擊的機器人,用于攻擊互聯網上所有 Web 應用的站點,已獲取其站點的系統權限、數據資料信息。最終用于肉雞、傀儡機、勒索等威脅網絡、系統安全的機器人。賬號接管機器人賬號

17、接管機器人是用于不斷的進行業務賬號爆破的機器人,主要用于不斷爆破當前站點的應用賬號信息,用于獲取當前站點的所有賬號資料,類比行為:撞庫、爆破,賬號接管機器人最終得出成果大多數用于灰黑產的賬號交易。掃描機器人掃描機器人是互聯網中無差別掃描 web 站點的機器人,通常這些機器人用于收集網絡空間資產信息,常用于灰黑產、攻擊方的信息收集。BOT 主要對抗手段BOT 技術在過去數十年間不斷發展變化,其目的以及技術手段都也不斷的發生改變。在最初的階段,BOT 技術僅用于檢索數據或執行操作,其本質為腳本工具,這些腳本不接受 Cookies 也不能解析 JavaScript 。因此腳本特征較為明顯。較容易進行

18、檢測及對抗。隨著時間的推移,BOT 所使用的技術及目的也變得越來越復雜,出現部分 BOT 使用的技術不僅僅可以接受并存儲使用 Cookies 的技術,還可以動態解析網站下發的 JavaScript 腳本、CSS 動畫渲染的內容,以加載需要的動態渲染的網站內容,獲取更多可以獲取的業務數據內容。但是這種可以主動解析JavaScript 的仿真瀏覽器類型的爬蟲,仍然可以比較快速的發現及對抗。在業務環境中,正常用戶使用瀏覽器和仿真瀏覽器對頁面內容進行訪問解析,在可視元素以及渲染加載元素中會存在相關頁面差異。可以通過類似敲門的功能,檢測是否為仿真瀏覽器進行訪問。此外,也有部分攻擊者通過解析 JavaSc

19、ript 內容,利用腳本工具仿真加密協議,對網站業務進行訪問。近兩年使用像 PhantomJS / Headless 這樣的無頭瀏覽器這些瀏覽器可以完整地處理網站內容。與真實用戶幾乎沒有區別。這些機器人甚至可以模擬人類活動,例如點擊頁面元素。但由于存在端上的細微特征差異,可以被客戶端風險識別識別出來,同時因為存在機械重復動作,會被大數據后端分析,精準的識別出來為異常用戶。隨著模擬器、云真機、群控等灰黑產使用的商業工具鏈的完善,近年來 BOT 的擬真、對抗手段越來越多。同時隨著近年移動互聯網的高速發展,基于移動端上的 BOT 流量越發強烈,傳統的 BOT 對抗不在僅僅局限于瀏覽器。現在攻擊者更多

20、偏向于使用移動端設備進行攻擊。通過模擬真實設備,進行對抗。使用資源賬號資源資源準備IP資源代理 秒撥VPN IDCVPS SCF BOT 對抗的上下游資源鏈技術準備眾包工具真機驅動真機模擬IP代理池瀏覽器腳本工具協議模擬云真機賬號注冊手機小號身份證郵箱小號銀行卡對抗準備訂單攻擊接口攻擊平臺攻擊驗證碼對抗解碼平臺接碼平臺IP代理池2022 年上半年 BOT流量現狀分析互聯網整體網絡流量BOT流量態勢(黑白灰)總體 BOT 流量 占整體互聯網流量約 60%具備惡意攻擊性的 BOT 流量占據互聯網整體網絡流量中的46%網絡攻擊者通過 BOT 手段將攻擊自動化、武器化 網絡攻擊者研發了許多自動化的網絡

21、攻擊掃描工具,在漏洞爆發前期通過將 payload 放入自動化掃描工具中進行大量分布式掃描攻擊網絡攻擊者在進行定向攻擊之,運用到了大量的自動化模糊測試工具對單一 API 進行攻擊BOT 主要發起攻擊的主要IP類型IP 地址是網絡接入的載體,是有限資源,且每個 IP 都有較容易獲取的公共屬性數據,不易被偽造,因此黑灰產通過 VPN、代理、VPS、ADSL 混撥等方式隱藏真實訪問 IP,通過不停切換 IP 出口制造全國用戶訪問的假象。IDC / VPS 混撥遠程在 IDC/VPS 云服務器上架設多根網線,軟件實現多線混撥,遠程控制 VPS 服務器撥號,IDC/VPS 混播 IP 池資源豐富,可以實

22、現跨城市切換,而旦速度快、穩定性好,是目前黑灰產團伙使用的主流 IP 切換模式VPN / 網絡代理攻擊者通過代理 IP/VPN 訪問其他網站,可以掩蓋流量的真實來源。需要 BOT 使用團隊進行相關代理池 / VPN 池進行維護BOT主要發起攻擊的主要 IP 類型物聯網基站 / ISP住宅代理出口攻擊者通過物聯網基站 / ISP / 住宅代理出口訪問業務網站,通過將攻擊流量混雜在正常流量中的。使進行業務處置的時候難以判斷秒撥秒撥的底層思路就是利用國內家用寬帶撥號上網(PPPoE)的原理,每一次斷線重連就會獲取一個新的 IP。與時俱進的黑產掌握大量寬帶線路資源,利用虛擬化和云計算的技術整體打包成了

23、云服務,并利用軟路由對虛擬主機以及寬帶資源做統一調配和管理常規的 BOT對抗方案Robots.txt 是一個古老的爬蟲協議文件,他的位置位于域名根目錄下。譬如 HYPERLINK http:/ex-/ http:/ex-/robots.txt。嚴格來講 Robots.txt 并不算一個反爬蟲技術,而是一個由爬蟲遵守的協議。它通過幾個簡單的命令告知遵守 Robots.txt 的爬蟲哪些可以被爬取,哪些不能。Robots.txt在內容的具體構成上,“爬蟲協議”通常由一個或多個語法單元組成,每個語法單元可進一步分為 兩部分:一個是 User-agent 值,用于設置其所允許或禁止的搜索引擎,后接其所

24、針對的爬蟲程序的名稱;另一個是 Allow 或 Disallow 值,用于設置特定爬蟲程序所能訪問或禁止訪問的具體路徑。一般的搜索引擎爬蟲會遵守這個協議,而對于爬蟲技術對抗的層次來說,這個文件毫無意義。基于規則情報的 Anti-BOT 方案IP 層/網絡層IP 報文帶有的最重要的信息就是 IP 請求的來源地址, 來源地址極難偽造的特性,使得這個字段成為 Anti-Bots 策略中最重要的字段。封殺 IP / IP 段是網站可以執行的最嚴厲的懲罰。由于國內的 ISP 大量的使用了 NAT 技術,多用戶共用同一 IP 的情況越發常見,如果單獨對 IP 進行處置,易產生誤殺,影響正常用戶的網站訪問。

25、但是即使如此, 源 IP 也是 Anti-Bots 策略中最為核心的數據,常規的 Anti-Bots 策略的處置一般都要圍繞源IP進行,如針對異常訪問 ip 、代理 ip、idcip 等。HTTP 協議層有幾個有趣的 HTTP 頭,它們是制定反爬蟲策略的常用數據。RefererReferer 是瀏覽器在頁面跳轉時帶入的 HTTP頭 部信息,用于表示 用戶是從那個頁面上訪問進來的,可以根據 Referer 信息來定位用戶訪問的網頁位置。 一般來說,PC 端 網站 90% 以上的 Web 請求流量應包含 Referer 字段。 在一些常見的 Anti-Bots 策略 中, 大量的不帶 Refere

26、r 請求頭、非本站來源 Referer 的訪問請求會觸發驗證碼策略。由于 HTTP 協議的特性,許多攻擊者會模擬并偽造 Referer 來源于本站的請求,用于繞過簡單的 Anti-Bots 策略。這也就是典型的 Referer 濫用場景。X-Forwarded-ForHTTP頭部信息HTTP 頭部信息中 X-Forwarded-For (XFF) 字段是在客戶端訪問服務器的過程中如果需要經過 HTTP 代理或者負載均衡服務器,可以被服務器用來獲取最初發起請求的客戶端的 IP 地址。XFF 會被用來進行調試和統計,以及生成基于位置的定制化內容,按照設計的目的,它會暴露一定的隱私和敏感信息,比如客

27、戶端的 IP 地址。 由于 HTTP 協議的特性,攻擊者可偽造 XFF 字段信息,對網站進行偽造訪問,繞過傳統 Anti-Bots的對 IP 的封堵處置策略。User-AgentUser-Agent 首部包含了一個特征字符串,用來讓網絡協議的對端來識別發起請求的用戶代理軟件的應用類型、操作系統、軟件開發商以及版本號。知名 Bots 均有自己唯一的 User-Agent 信息,如 搜索引擎爬蟲。搜索引擎爬蟲通過 在 User-Agent 字段中標記自身所屬的身份信息,告知 Web 應用服務器中的身份信息,方便 Web 應用提供相關的快速索引信息。但是由于 HTTP 協議的特性,有不少攻擊者會嘗試

28、偽造 User-Agent 字段信息,用于冒充搜索引擎爬蟲,對網站的業務進行訪問爬取,這也是典型的 User-Agent 偽造的場景。基于客戶端風險的 Anti-BOT 方案JS 渲染 ( Ajax 與 SPA )Ajax 應用可以僅向伺服器發送并取回必須的數據,并在客戶端采用 JavaScript 處理來自伺服器的回應。由此,singleapplication(SPA)頁面應用也逐步開始盛行,許多頁面內容通過 Ajax 進行動態獲取與渲染。腳本類型的 BOT 若不未經定制化改造,是較難獲取到對應動態頁面加載渲染的數據,并且如果頁面接口進行變化,定制化的腳本工具也需要同樣進行變換。接口加密與

29、JS 混淆Ajax 接口 默認返回的是規整化的接口,返回的數據格式如 JSON/XML 數據。對于正常用戶較為難讀,但是對 Bots 或僅收集特定數據的帶來了更多的便利。擁有解析前端能力的 Bots 工程師可以通過只需一點點的前端逆向能力,利用開發者工具,分析網絡請求,就可以找到相關的 API 接口,即可通過對應的庫解析出數據。但是如果前端通過 使用 JavaScript 、WASM 等技術進行傳輸數據加密混淆、并把通過相關加密方法(如 DES、AES、RSA 等變換)進行數據傳輸接口進行加密的話,Bots 工程師對逆向難度將會增加。如果再增加 JavaScript 的相關 Feature 以

30、及 Uglify 混淆壓縮使 JavaScript 代碼不可讀,并加上相關 JavaScript 、WASM 代碼加密,令 Bots 工程師無法輕松的逆向出加密計算的流程, 就可以達到一定的反爬目的。但是在客戶端側,為了能正常實現業務邏輯,仍然需要展示出來,因此就有攻擊者利用 sele- nium、headless 的形式,模擬瀏覽器進行訪問,通過渲染頁面并運行相關 JavaScript 代碼。從而繞過此類 Bot 對抗策略。驗證碼驗證碼 (CAPTCHA) 是一種古老而有效檢測是否人類的一種方式。從最初的簡單圖形驗證碼,如數字驗證碼、字母驗證碼、到后來的中文驗證碼。到現代的行為驗證碼,短信驗

31、證碼、VTT驗證碼。驗證碼是應用層最普遍的人機對抗技術。對于一些簡單的數字、字母驗證碼,行為驗證碼,隨著近幾年圖像識別,機器學習、神經網絡技術的高速發展,有技術人員通過上述技術訓練出的對抗驗證碼的模型,其成功率可以達到 8090% 。因此更高階的驗證碼也隨之誕生,形如 VTT 驗證碼,行為動作驗證碼等。因此,也有灰黑產專門用使用人工打碼平臺來對接處理復雜驗證碼問題,所以單憑驗證碼很難有效處理 Bots 問題, 并且過多的驗證碼也會導致正常用戶的體驗受到影響。內容混淆與假數據Bots 主要動作為自動化的獲取目標數據,但是有部分目標數據的可呈現內容為人觀看,如文本、數字內容。如果直接在頁面上進行展

32、示,Bots 可解析對應的 DOM 節點數據,即可獲取到相關內容。因此就有部分傳統的頁面策略采取了字體混淆、頁面混淆的方式,對頁面內容進行編碼轉換,后續通過加載對應字體的形式,加載成為人類可以正常閱讀瀏覽的頁面。用于對抗普通的腳本 bots 。但隨著 OCR 的技術不斷推進,此種對抗能力越來越弱。此種數據混淆減緩了頁面加載的時間,也影響了正常的業務體驗。訪問行為分析訪問行為分析的 Bot 對抗策略,可以分為兩個方向:1. 用戶請求訪問行為;2.用戶操作軌跡行為。這兩者主要差異在于,訪問請求的時間序與在頁面瀏覽的操作序的差異。如在進行頁面下單的時候,正常用戶訪問請求會先到商品詳情頁中,在商品詳情

33、頁添加至購物車或者直接喚起購買頁面。但是在 Bots 中,這種訪問行為的展示就變得有趣了起來,物品搶購下單的時候,Bots 將會直接調用購買下單接口,減少頁面加載等相關耗時操作。此外,像是在移動端上,默認人類進行點擊的操作為 tap,但是 Bots 如果采取直接對 dom 進行處置,默認處置動作為 click。通過這種差異化信息,結合其他的 Anti-Bots 手段,就可以對 Bots 造成有效對抗。低級的行為分析基于規則,高級的行為分析基于 AI 評估與智能統計。Cookies 與 StorageHTTP Cookie(也叫 Web Cookie 或瀏覽器 Cookie)是服務器發送到用戶瀏

34、覽器并保存在本地的一小塊數據,它會在瀏覽器下次向同一服務器再發起請求時被攜帶并發送到服務器上。通常,它用于告知服務端兩個請求是否來自同一瀏覽器,如保持用戶的登錄狀態。Cookie 使基于無狀態的 HTTP 協議記錄穩定的狀態信息成為了可能。Storage 分為兩種類型:1.LocalStorage;2.SessionStorage。 LocalStorage 屬性允許你訪問同源的對象 Storage;存儲的數據將保存在瀏覽器會話中。LocalStorage 類似 Session- Storage,但其區別在于:存儲在 localStorage 的數據可以長期保留;而當頁面會話結束也就是說,當頁

35、面被關閉時,存儲在 sessionStorage 的數據會被清除 。通過 Cookie 和 Storage ,就可以跟蹤用戶的行為軌跡。但是 LocalStorage 由于為瀏覽器特性,因此,對對抗常規的腳本型爬蟲,有較好的處置能力。NavigatorNavigator 接口可以用來作為用戶訪問 User-Agents 的狀態和標識。Navigator 允許腳本查詢它和注冊自己進行一些活動,以及操作系統,瀏覽器信息。部分 Anti-Bots 策略可以使用只讀的 window.navigator 屬性檢索 navigator 對象,以獲取操作系統、當前瀏覽器相關信息。JavaScript 引擎指

36、紋不同的瀏覽器底層引擎在執行相同的 JavaScripts 代碼的時候,會產生不同的代碼結果。這樣就可以通過下發并執行特定的代碼片段(如 eval.toString().length、errFirefox 等),即可判斷出當前瀏覽器是否為進行瀏覽器偽造。Canvas 指紋Canvas 提供了一個通過 JavaScript 和 HTML的 元素來繪制圖形的方式。它可以用于動畫、游戲畫面、數據可視化、圖片編輯以及實時視頻處理等方面。Canvas 不僅局限于圖片處理,它還能監聽用戶的鍵盤輸入、鼠標移動、以及觸摸事件。不同瀏覽器、操作系統、以及操作系統環境,會使得 Canvas 的同一繪圖操作流程產生

37、不同的結果。Canvas指紋被所有主流瀏覽器支持,并且可以被大部分的 PC、平板、智能手機訪問。如果是相同的運行環境,同一套 Canvas 操作流程會產生相同的結果。 瀏覽器指紋的優勢是不需要瀏覽器保持本地狀態,即可跟蹤瀏覽器。這樣當攻擊者同時喚起多個受控瀏覽器時,可以快速發現請求均出現于同一機器。系統指紋系統指紋常用于識別當前訪問客戶端的相關系統信息,如水平陀螺儀、USB 接口信息等,在移動端上,可以檢測當前訪問的借口是否包含 水平陀螺儀的借口,用于檢測是否為模擬器使用。此外在現代瀏覽器中,也有相關 USB WEB API 用于檢測當前客戶端是否有插入 USB 端口。通過這種處置策略,可以快

38、速的校驗出來當前客戶端是否在 IDC、模擬器上。SSL 指紋信息通過提取 SSL 握手中的相關特征,利用 SSL 進行指紋識別。在使用系統默認特征庫的情況下,SSL 指紋可以幫助識別操作系統。通過 SSL 指紋信息,我們可以快速識別出當前客戶端的訪問請求的是否偽造。假鏈陷阱假鏈陷阱通常為通過構造不可見的隱藏鏈接或不可被用戶主動觸發的事件嵌入在當前訪問的頁面中。由于大多數 Bots 的策略默認會解析當前頁面的所有事件及鏈接,因此可以快速的發現此類 Bots。基于機器學習 + AI 的Anti-BOT方案會話訪問行為特征通過機器學習 + AI 防護的方式,計算出當前訪問會話的相關訪問行為特征,根據

39、會話特征中的相關信息,如 URL 重復比、URL 種類、URL 平均深度、Cookie 是否濫用、Cookie 重復性、Cookie 有效率、User-Agent 類型、User-Agent 隨機性指數、User-Agent 有效比、出現最多的 User-Agent 占比、Referer 重復比、Referer 存在比、Referer 有效比、出現最多的 Referer、出現最多的 Referer 的比例、請求參數比、請求參數種類對不同會話的訪問行為進行處置。會話訪問意圖特征通過機器學習 + AI 識別的方式,計算當前訪問會話的具體訪問意圖,并根據相關訪問意圖進行聚類,并形成會話訪問行為意圖聚

40、集,并根據不同會話的意圖規劃進行聚類處置。會話異常指標特征通過大數據統計可快速篩選出遠超中位數的異常會話訪問行為,通過相關異常訪問行為指標,即可快速篩選出行為異常的流量。業務流量真正業務流量高級 BOT基于規則情報+ 客戶端風險識別+ 機器學習+ AI 的 Anti-BOT 方案智能分析客戶端風險威脅情報通過規則情報將存在異常的 IP(代理、掃描器、威脅情報)、BOT 訪問特征進行快速過濾,隨后通過客戶端風險識別中的檢測是否真人真機、最后通過后端的機器學習 + AI 方案分析得出異常的訪問行為,并進行處置。分布式爬蟲惡意賬號擬真流量+BOT 市場規模與行業分析 市場規模與預期全球 Bot Management 的市場規模預計將從 2021年的 4.08 億美元增長到 2026 年的 9.83 億美元,預測期內的復合年增長率 (CAGR) 為 19.2%。惡意 BOT 程序安全市場的主要驅動因素包括不良僵尸程序流量的增加;BOT 攻擊的復雜性和組織的收入損失增加;BOT 瀏覽移動端訪問量增大;電子商務、旅游、游戲等業務中 BOT 攻擊激增。疫情中BOT 的趨勢變化新冠疫情影響了社會的各個行業,幾乎所有個人和企業的生活方式都有一定的影響,互聯網生態系統在全球范圍扮演的角色越發重要。由于新冠疫情,人們對在線業務的依賴顯著增加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論