神州泰岳

产品介绍

DINFO-SPIDER是神州泰岳研发的互联网信息采集系统,该系统提供新闻媒体、论坛、社区、微博、微信和电商等网站公开数据的自动采集及清洗过滤功能。

优势特点

产品功能

适用场景

经典案例

咨询电话:010-57973008

神州泰岳

自动化能力支持

完全由机器自动采集,我们提供采集系统支持此项工作。

采集周期可调节

可以方便设置监测周期,目前新闻论坛支持5分钟采集一次,微博等社会化媒体1分钟采集一次。

采集源数量不受限制

处理的信息来源网站数量目前已达1万多,并且数量不受限制。

采集信息智能过滤

提供先进高效的信息更新处理机制,只采集实时更新过的网页资源,保证对采集过的信息不会重复采集。

采集源扩展容易

支持灵活的定制设置目标网站功能,增加监测对象易如反掌。

免编程、可配置的采集管理

实现了采集源、采集任务、数据存储等多渠道数据的统一配置,集成了数据库、分布式文件系统等多种方式的统一存储;可灵活定义采集流程

具备智能数据清洗功能

完善的采集监控管理

DINFO-SPIDER系统还提供了完善的采集监控管理包括对采集数据的查看、采集结果的分析,采集数据的统计以及采集运行的监控,能 确保采集任务的持续运

全网信息采集功能

支持新闻、论坛、电商、微博、微信公众号等网站公开数据的自动采集和存储功能,已内置几万个采集源的采集模板,实现了多渠道数据的统一采集

可视化采集划定

提供定制化的浏览器,能够在定制的浏览器中进行采集内容的圈选,操作方便,上手简单。

适用场景

DINFO-SPIDER互联网信息采集系统采用了业务场景定制的使用方式,可为客户提供专门的定制化数据采集服务,适用于金融行业、政府安全领域、军工领域和大型企事业单位等需要互联网外部信息获取能力的场景。

经典案例

为中国船舶工业综合技术经济研究院提供数据采集服务

合作背景

依据院《中国船舶工业综合技术经济研究院十三五规划》(简称,十三五规划),《中国船舶工业综合技术经济研究院“十三五”信息化规划 (征求意见简稿)》(简称,信息化规划),《中国船舶工业综合技术经济研究院数据平台规划报告》(简称,平台规划),为贯彻中国船舶工业综合技术经济研究院打造“三个平台、提升三个能力”的要求,为中船研究院建设外网数据采集平台。

客户价值

降低数据采集成本,有效提升数据采集的效率和覆盖范围。

  

技术方案

目标导向,统筹规划。针对新型国防科技智库研究重点和业务模式,加强顶层设计,一次性提出系统总体方案;结合情报建设项目、科研项目和现有条件,统筹考虑建设重点和进度。既要满足当前研究工作和部门发展急需,尽快投入使用;又要预留未来发展空间,保证系统可扩展性。

面向院科研管理人员,基于国防科技决策支持系统现有系统,扩展互联网大数据采集功能,完善内外网信息交互、内网信息发布等功能。

建设的采集发布模块在技术上要采用(“云架构”后期基于云服务),具有开放性、可扩展性。

初步形成基于互联网云计算平台的大数据基础平台能力,利用现有的硬件条件,考虑租用云服务,建立安全可靠的数据交换系统和运营服务。

符合互联网等级保护规范,内网符合分级保护的要求。

架构设计符合院数据平台规划。

应用场景

用于大量的互联网数据的采集,并需要对采集数据进行清洗输出。