數據智能采集平臺全網捕獲所需互聯網公開信息,所見即所得式采集,為用戶提供持續獲取外部海量數據的服務。通過數據治理算法組件,對數據進行清洗、治理,保證數據質量,為數據應用提供有效支撐。
頂層框架包括數據采集、自動清洗、智能分類、情報呈現、匯編報告、人工干預等6個部分。
支持對定向網站、社交平臺等數據源進行配置管理。
將采集的定向網站、社交平臺轉換為采集任務,協調監控每個任務隊列的情況。
支持對采集任務異常情況進行監控預警。
支持對信息進行初步處理后,將其結構化入庫,數據治理算法組件包括:標題抽取、新聞正文抽取、人名地名抽取、熱詞發現、自動聚類等。
數據采集采用先進的分布式架構集群部署,可以抓取海量的網頁,消除單點抓取瓶頸。數據支持緩存處理和分庫存儲,保證采集系統穩定高效運行。
采用流式計算技術,對用戶的數據請求能夠秒級快速響應。智能的調度機制,對于實時性要求較高的源網站優先調度處理。
采用先進的數據采集容錯機制,確保數據傳輸的性能和正確性。對于傳輸錯誤的數據能夠進行重傳。
不展示!