产品介绍

DINFO-OEC非结构化大数据分析挖掘平台是一款自然语言理解(NLP)的平台产品。该产品主要由业务建模技术和分析挖掘技术组成,输出面向业务的结构化标签。平台实现结构化数据和非结构化数据的融合分析挖掘,最大化的挖掘大数据的业务价值,提供大数据分析挖掘支持下的业务创新。产品自2013年11月面世,共经历9个大版本27个小版本的迭代,服务了中国工商银行、招商银行、中国建设银行、中国银行、民生银行等众多商业银行,太平洋保险、工银瑞信等金融机构,顺丰、中石化等大型企业,在自然语言处理领域有着广泛的应用。

优势特点

产品功能

适用场景

经典案例

集成微服务框架

高效、简洁的实时分析调用流程,减轻资源负担;

组件服务管理

dinfo-side项目对服务部署进行组件维度的启停管理,增强解藕能力,降低资源占用率;

集成Kubernetes(K8s)容器集群管理系统

集成Kubernetes(K8s)容器集群管理系统,实现容器集群的自动化部署、自动扩缩容、维护等功能;

集成Docker容器技术

集成Docker容器技术,增强持续部署能力,实现资源隔离,提升版本控制能力,保障平台安全性;

支持MapReduce分布式计算能力

支持MapReduce分布式计算能力,支持Spark、Storm等平台无缝集成;

支持分布式存储与计算

主流Hadoop平台(CDH、华为FusionInsight、IBM BigInsight、EMC、星环等);

集成TensorFlow深度学习框架,集成多元算法框架;

集成TensorFlow深度学习框架,集成多元算法框架;

支持SOA架构

具备横向扩展能力,增加服务器数量,即可提高分析性能;

数据自动流转

提供标准化分析接口定义与工作流式接口逻辑组装能力,实现数据自动流转,将非结构化数据转为满足业务需求的结构化数据;

数据智能处理

提供领域场景NLP流程构建能力,智能处理非结构化数据,准确提取关键信息,快速理解信息内容并结构化,提升语义挖掘效果;

采用独创的“本体O-要素E-概念C”三位一体的专利技术实现业务建模

采用独创的“本体O-要素E-概念C”三位一体的专利技术实现业务建模,支持智慧语义认知算法、多种分析挖掘算法;

语义消歧与归一化

提供构建领域专属语义模型能力,消除语义歧义、归一化语义多样性,精准挖掘业务语义,提炼非结构化数据业务价值信息;

服务发布

服务运维

模型建设

自定义组件

可视化应用逻辑设计

针对各类业务应用中的文本分析算法模型的训练、评估、发布和管理的开发场景。支持各种AI模型(尤其是NLP模型)的训练、评估和发布管理。包括机器学习模型,基于本体O-要素E-概念C的语义模型,以及深度学习模型的训练和发布。

用于组织内需要进行语言资源管理的各种应用场景。满足各类语义资源(特别是业务语言资源,如领域词库、专业词库、通用词库、停用词库等)的管理和服务的需求。

针对各类业务应用中的文本分析算法模型的训练、评估、发布和管理的开发场景。支持各种AI模型(尤其是NLP模型)的训练、评估和发布管理。包括机器学习模型,基于本体O-要素E-概念C的语义模型,以及深度学习模型的训练和发布。

对业务系统提供NLP能力服务,DINFO-OEC支持单一数据分析(服务接口调用)和批量数据处理两种形式的能力服务。能够满足不同类型场景下对NLP能力的需求和数据的接口处理要求。

经典案例

中国工商银行:非结构化文本分析挖掘技术平台

合作背景

工行每年都有大量的非结构化文本数据形成,此前绝大部分数据都被保存下来,但没有得到有效利用,工行希望建设相关技术平台对这些非结构化数据进行开挖掘处理,获取其中的业务价值。

客户价值

为行方提供基础的非结构化文本分析和挖掘的基础技术平台,同时向生产系统投入3个创新应用:客服大数据分析挖掘系统、科技风险监测系统、全球资讯知识库系统,用以支持行方“信息库”大数据战略建设。

  

技术方案

基于DINFO-OEC平台提供非结构化文本数据分析挖掘模型构建、测试、发布和数据分析服务接口。基于此平台提供的文本数据分析挖掘能力,开发独立的场景化业务应用系统。

应用场景

国际咨询数据的业务分类获取,基于客服数据的潜客发现等。