神州泰岳

产品介绍

文档结构化服务包括文档解析和语义分析两部分,文档解析是将 PDF、WORD、 EXCEL、PPT、TXT 等不同格式文档解析,输出结构化的结果,并提供提取全文、标题、表格、图片、图片 OCR 识别等丰富的功能;语义分析是结合非结构化文本分析挖掘平台 OEC的智慧语义认知技术,对文档结构化的数据进行深度的自然语义挖掘。

优势分析

产品功能

咨询电话:010-57973008

神州泰岳

碎片化加工能力

相比整篇文档加工,提供了按章节结构加工的方式,使文本抽取更加细粒度。

模型自动化解析

可以通过训练少量文档,自动化解析这一类相似文档。而不会因为某些个别格式不同,需要针对每一篇不同文档编写不同解析方式。

表格解析能力

利用图像识别算法校验解析工具表格信息,提取出准确的表格数据。

图像识别能力

不仅可以识别出文档中的图片,还结合了OCR技术识别出图片中文字。

摘要提取

关键词提取

保险公式抽取

结构提取