首頁

新聞動态 NEWS

AI學習和大(dà)數據分(fēn)析在公安領域的應用

08 2019-07

數據分(fēn)析與挖掘是人工(gōng)智能發揮真正價值的核心。傳統的大(dà)數據分(fēn)析,不管是傳統的聯機分(fēn)析處理(OLAP)技術還是數據挖掘技術,都難以應對大(dà)數據的挑戰。一(yī)是執行效率低,傳統數據挖掘技術都是基于集中(zhōng)式的底層軟件架構開(kāi)發,難以并行化,在處理TB級以上數據時效率低;二是數據分(fēn)析精度難以随着數據量提升而得到改進,特别是難以應對非結構化數據。深度學習具有自行處理、分(fēn)布存儲和高度容錯等特性,非常适合處理非線性的或者模糊、不完整、不嚴密的知(zhī)識和數據。智能大(dà)數據分(fēn)析技術利用深度學習算法自動開(kāi)展多種分(fēn)析計算,探究數據資(zī)源中(zhōng)的規律和異常點,輔助用戶更快、更準地找到需求點,從而實現風險預測和評估。

習近平總書(shū)記深刻指出,"要推動大(dà)數據技術産業創新發展""要運用大(dà)數據提升國家治理現代化水平"。李克強總理在今年的政府工(gōng)作報告中(zhōng)提出,要"深化大(dà)數據、人工(gōng)智能等研發應用"。公安機關必須積極推進公安大(dà)數據戰略,加快推動公安工(gōng)作由信息化向智慧化升級轉型,在促進大(dà)數據與社會治理深入融合中(zhōng)提升社會治理能力和水平,讓打防管控的矛更利、盾更堅,切實築牢維護國家政治安全、确保社會大(dà)局穩定、促進社會公平正義、保障人民安居樂業的堅強防線。

一(yī)、公安大(dà)數據建設要點

1.PB級數據存儲管理:信息化建設在推進,數據規模随之飛速增長,爲了滿足大(dà)規模數據的存儲和分(fēn)析,大(dà)數據存儲系統應支持單一(yī)系統擴展至10PB以上規模,以滿足未來數據爆發的存儲需要

  2.多種數據類型與協議支持:公安數據形式多樣,包含文檔、圖片、視頻(pín)、栅格、矢量等,因此該系統需要能夠支持結構化、半結構化、非結構化多種數據類型,提供NFS/CIFS/JDBC/ODBC等多種接口,以便業務對多種數據進行訪問和操作;

  3.高質量的數據整合:好的數據質量是數據分(fēn)析挖掘等有效應用的基本條件,面對公安行業交互複雜(zá)而繁多的系統,勢必需要将這些多源異構的數據進行抽取、轉換及裝載,實現數據的整合、消重,提供高質量的數據,在此基礎上進行關聯、建模,爲實戰業務提供可用的數據;

  4.高效的數據分(fēn)析能力:百億條記錄的檢索、上千張表的碰撞、幾百個小(xiǎo)時的視頻(pín)分(fēn)析、大(dà)量的移動互聯網和社交媒體(tǐ)數據處理等應用,無不對大(dà)數據系統的數據分(fēn)析能力提出更高的要求;

  5.可管理和開(kāi)放(fàng)性:可管理、開(kāi)放(fàng)化、标準化的大(dà)數據技術體(tǐ)系架構,不僅可以爲公安帶來更高的性價比、更出色的擴展性,更能爲警務建設在大(dà)數據平台上開(kāi)展新探索、新應用解除後顧之憂;

  6.安全可靠,自主可控:公安系統中(zhōng)很多數據關系着國家安全和人民生(shēng)命财産安全,因此,要求該系統具備非常高的可靠性,同時,爲進一(yī)步加強數據安全性,避免數據洩露,最好選用具備完全自主知(zhī)識産權的國産設備和系統。

二、公安大(dà)數據的技術選型

  大(dà)數據的實質是對數據的管理與開(kāi)發利用,與當前以信息資(zī)源開(kāi)發爲核心的公安工(gōng)作具有廣泛的共通性,如何借助大(dà)數據技術推動公安工(gōng)作的發展和變革?技術選型非常重要。在各個企業和組織紛紛助推下(xià),大(dà)數據領域的相關技術呈現百花齊放(fàng)局面,涵蓋數據收集、存儲、計算、挖掘、資(zī)源調度等,下(xià)面就以最核心的計算層和存儲層兩個維度介紹下(xià)有關技術路線和發展趨勢。

  數據處理:

  簡而言之,不管對何種應用,當數據量很大(dà)時就無法在一(yī)台服務器上解決計算問題,此時分(fēn)布式計算優勢就體(tǐ)現出來,而HadoopMapReduce的重要創新便是當處理一(yī)個大(dà)數據集時會将其任務分(fēn)解并在運行的多個節點中(zhōng)處理,這種批處理框架常用于離(lí)線的複雜(zá)的非結構化數據處理,如ETL、數據挖掘等場景;與Hadoop的使用硬盤來存儲數據不同,Spark是基于内存的叠代計算框架,适用于需要多次操作特定數據集的應用場合;而Storm則是專門針對實時數據類型的流式計算分(fēn)析框架,應用在低延遲的場景中(zhōng),實現海量事件的實時分(fēn)析、處理和決策。除此之外(wài),爲應對不斷增長的海量結構化數據的存儲和快速處理以及靈活的業務建模需求,數據庫系統必将引入分(fēn)布式架構、MPP處理技術。

  數據存儲:

  上面提到了MapReduce将任務分(fēn)發到多個服務器上處理大(dà)數據的能力。而對于分(fēn)布式計算,每個服務器必須具備對數據的訪問能力,這就是HDFS所起到的作用,HDFS有着高容錯性、高吞吐量的特點,适合大(dà)數據集的應用。與此同時,業内也有許多其他類型的文件系統推出,不僅能解決了傳統存儲體(tǐ)系結構存在的難題,又(yòu)能提高存儲利用率和數據讀寫性能,可以替代HDFS作爲Hadoop架構的底層文件系統/數據存儲。

  不同的技術思路各有偏重,由于公安業務種類繁多,大(dà)數據應用場景多樣化,除了建立各類基礎大(dà)數據資(zī)源庫之外(wài),還需要做到事前預測警務研判、事中(zhōng)實時情報分(fēn)析及事後案事件分(fēn)析,及可視化查詢統計等,建議公安用戶基于智能融合的大(dà)數據架構構建上層應用,積極引入大(dà)數據領域的先進技術,推動公安工(gōng)作邁入大(dà)數據發展階段。

三、公安大(dà)數據應用領域

  (一(yī))大(dà)數據與應急

  借助大(dà)數據,既可以預測某一(yī)區域乃至全國的某種類型的犯罪趨勢,也可以預測某一(yī)時間某一(yī)具體(tǐ)地點某種類型的犯罪,還可以預測某一(yī)個體(tǐ)的犯罪概率。根據預測,我(wǒ)(wǒ)們可以制訂計劃,優化警力配置,提升行動效率。

  (二)大(dà)數據之與社會維穩

  互聯網成爲人們日常交流、表達思想和宣洩情緒的重要平台,也是相關内容安全保障的重要平台。網絡輿論已成爲社會輿論的重要組成部分(fēn),越來越多地引起全社會的高度重視。搜索引擎、微博、微信、論壇、貼吧等互聯網輿論集中(zhōng)的區域,搜集這些數據便獲取到了以往無法掌握的社會輿論動向,熱度輿論、以及輿論領袖。一(yī)些突發事件和熱點、敏感問題在網上被惡意炒作,形成強大(dà)的網上輿論氣候,各種負面信息通過互聯網的各種服務方式快速、廣泛傳播,嚴重影響社會穩定和政府單位形象。互聯網不僅是現實社會的虛拟映像,還是現實問題的聚焦鏡和放(fàng)大(dà)器。

  通過輿情機制,一(yī)方面可以加強互聯網信息監管,另一(yī)方面,對于及時應對網絡突發的公共事件和全面掌握社情民意,并對于及時發現社會蘊藏的潛在不穩定因素,提早預防起着重要作用。

來源:警用科技