神州泰岳AI技术助力警情文本处理
2022-04-19
37069
阅读提示:
案例故事
接处警是公安机关主要业务工作,也是获取社会信息最鲜活的途径,各类治安管理、违法犯罪问题线索都潜藏其中。以某市公安局为例,截至2020年底,该市公安局每日新增警情数量接近2.2万起,每年警情增量数据约750万条,已积累有效警情数据约1.6亿余条,数据打印在A4纸上堪比中国尊高度。
然而,警情中大量案件线索、安全风险线索、群众求助线索通读困难,费时费力,警情数据价值密度低,海量警情数据价值无法充分挖掘。同时,数据的共享、融合、治理是未来公安信息化发展的方向,结合公安的现状和实际业务需求,基于深度语义分析模型,自动抽取警情文本中涵盖内容主旨的关键信息并生成指定长度的摘要。可用于警情聚合、播报等场景,为公安在降低接处警文本处理成本方面提供AI能力支持。
解决方案
总的来说,我们的摘要技术需要实现以下几个目标:
1 理解文本
与人类阅读文本类似,需要明白文本表达的意思,涉及到的话题等。
2 可读性强
可读性是指生成的摘要能够连贯与衔接。
3 简练总结
即在理解文本的基础上,用尽可能简洁的文本表达最核心的部分。
核心技术
我们在开发过程中共使用了两项核心技术:
1 核心摘要抽取功能
用户提交一段文本之后,可以选择其中需要保留的关键内容或关键字,确认之后即利用我方提供的摘要生成接口,进而获取自动摘要模型的简短文本。
2 引入相似度计算方法
可以优化警情案情文本中经常出现的重复信息,对比句子中的关键信息,保留更有价值的文本。
摘要生成模型处理流程
除了摘要抽取技术,我们还使用了OEC技术,捕捉案情相关的人、时、地、事、件信息,此时系统将检查OEC抽取的关键信息是否有对应遗漏,通过复制机制将文本重新生成摘要后,返回给用户。