神州泰岳

产品介绍

文档结构化服务包括文档解析和语义分析两部分,文档解析是将 PDF、WORD、 EXCEL、PPT、TXT 等不同格式文档解析,输出结构化的结果,并提供提取全文、标题、表格、图片、图片 OCR 识别等丰富的功能;语义分析是结合非结构化文本分析挖掘平台 OEC的智慧语义认知技术,对文档结构化的数据进行深度的自然语义挖掘。

优势分析

产品功能

适用场景

咨询电话:010-57973008

神州泰岳

碎片化加工能力

相比整篇文档加工,提供了按章节结构加工的方式,使文本抽取更加细粒度。

模型自动化解析

可以通过训练少量文档,自动化解析这一类相似文档。而不会因为某些个别格式不同,需要针对每一篇不同文档编写不同解析方式。

表格解析能力

利用图像识别算法校验解析工具表格信息,提取出准确的表格数据。

图像识别能力

不仅可以识别出文档中的图片,还结合了OCR技术识别出图片中文字。

摘要提取

关键词提取

保险公式抽取

结构提取

对大量的非结构化文档做语义分析处理

对于需要对已有大量PDF、WORD等非结构化文档,进行深度的知识挖掘。文档结构化服务可以提供非结构化文档的解析能力及利用自然语言处理技术结合行业规则进行知识挖掘。

经典案例

招商银行保险条款智能解析

客户价值

挖掘已有文档的知识,生成知识库及知识图谱,提高行内的客服系统自动问答能力。

  

技术方案

针对保险条款的17000多篇文档,根据不同类型选出不同的格式文档,对这些文档进行语料标注,训练生成模型。利用模型对保险条款的文档,进行结构化解析,生成章节结构化文本。利用非结构化语义分析挖掘平台,建立保险行业语义模型,对章节结构化文问进行深度挖掘分析,提取出保险条款知识点。

应用场景

保险条款PDF文档结构化解析及知识抽取。