4.2.4 关系抽取

在定义方面,关系抽取指从数据中抽取两个或者多个实体的语义、逻辑或者拓扑关系。回顾知识图谱的定义,知识图谱是具有属性的实体通过关系连接而成的网状语义知识库,其中的节点表示物理世界中的实体(或概念),而实体之间的各种关系构成网络中的边。由此,知识图谱是对物理世界的一种符号表达,以符号与连接的形式描述物理世界中的实体及其相互关系。作为连接实体的关键要素,关系是知识图谱中最重要的组成部分。因此,关系抽取是知识抽取中最重要的子任务之一。关系抽取的典型结果为三元组<实体,关系,实体>,构成了知识图谱的边。

在目标方面,关系抽取指从企业各渠道的数据源中,获取满足业务需求、提升业务效果的关系数据。那么业务会关注及应用哪些关系数据呢?

企业在不同的业务场景中会关注不同的关系数据,如下所述。

• 在营销服务场景中,用户与用户的社交、互动关系及用户与商品的互动、购买、兴趣关系,可以提升广告投放、个性化推荐的效果。

• 在企业供应链管理场景中,商品与供应商的供给关联、仓储关联关系,可以提升供应链优化、路径优化等应用的效果。

• 在企业生产与运维场景中,设备与设备的物理关系、逻辑关系,可以提升对电网状态推理的准确性。

• 在企业经营管理场景中,企业与企业投资、产品及业务的关系,将影响企业管理决策与战略投资的效果。

这些关系数据通常被存储在企业的CRM系统、仓库管理系统(WMS)、企业设备管理系统(MES)、企业资源计划(ERP)系统等中。企业内部的数据主要以结构化的数据库表形态存在,因此结构化关系抽取系统要通过数据匹配和数据映射完成。在结构化抽取过程中,需要关注数据的覆盖度、映射的准确率及业务落地效果等指标来推进任务的迭代。而企业的非结构化关系数据,通常以文本形态存在于企业的办公文档、专业图书、企业公告及公开新闻等中。比如企业的投资关系变动通过公告和新闻进行发布,医疗药物之间的作用关联通过最新论文及实验结果进行发布。当抽取企业的非结构化关系数据时,需要构建自然语言处理模型对业务文本进行关系抽取。非结构化数据关系抽取算法的目标与实体抽取一致,也是通过召回率、准确率及F1值进行模型评估的。

在技术方面,非结构化的关系抽取目标是从一句文本中抽取存在特定关系的实体对。基于这个目的,图4-8展示了非结构化数据关系抽取算法体系,可以将关系抽取任务转化为分类任务和序列标注任务。

图4-8

• 分类任务指对文本做特征抽取,然后根据预测的关系类型训练多分类模型,每种关系都是一个特定的类别。

• 序列标注任务类似于命名实体识别任务,即通过预测实体的标记类型来确定两个实体是否存在关系。

在实现方法方面,早期的关系抽取方法主要基于规则和词典,该方法需要由领域专家基于语言学知识,根据语料的特点,进行关系匹配模板的编写与开发工作。基于规则和词典的方法虽然容易落地且见效快,然而不可避免地会面临构建成本高、可迁移能力低等挑战。为了应对这些挑战,产业界涌现了大量基于统计机器学习、深度学习的关系抽取模型。关系抽取模型可被分为监督学习方法与弱监督学习方法,其中,不同方法的优点、缺点分析已在图4-8中进行了对比和展示。