什么是知识图谱?

知识图谱,也称为语义网络,表示现实世界实体(即对象、事件、情境或概念)的网络,并说明它们之间的关系。这些信息通常存储在图形数据库中,并可视化为图形结构,从而引发了术语知识“图”。

知识图谱由三个主要部分组成:节点、边和标签。任何物体、地点或人都可以是节点。边定义节点之间的关系。例如,节点可以是客户(如 IBM)和代理机构(如 Ogilvy)。一个优势是将这种关系归类为 IBM 和奥美之间的客户关系。

A代表主语,B代表谓语,C代表宾语

还值得注意的是,知识图谱的定义各不相同,并且有研究(链接位于 ibm.com 之外),这表明知识图谱与知识库或本体论没有什么不同。相反,它认为这个词是在2012年由谷歌的知识图谱推广的。

本体

本体论在知识图谱的上下文中也经常被提及,但同样,关于它们与知识图谱的区别仍然存在争议。最终,本体用于创建图中实体的正式表示。它们通常基于分类法,但由于它们可以包含多个分类法,因此它保持自己的单独定义。由于知识图谱和本体以类似的方式表示(即通过节点和边),并且基于资源描述框架 (RDF) 三元组,因此它们在可视化中往往彼此相似。

本体论的一个例子可能是,如果我们检查一个特定的场所,比如麦迪逊广场花园。本体使用变量(如时间)来区分该位置的事件。像纽约游骑兵队这样的运动队,在一个赛季中有一系列的比赛将在该竞技场举办。它们都是曲棍球比赛,而且都位于同一个场地。但是,每个事件都按其日期和时间进行区分。

Web 本体语言 (OWL) 是被广泛采用的本体的一个例子,它得到了万维网联盟 (W3C) 的支持,W<>C 是一个倡导开放标准以维护互联网寿命的国际社区。归根结底,这种知识组织得到了数据库、API 和机器学习算法等技术基础设施的支持,这些基础设施的存在是为了帮助人们和服务更有效地访问和处理信息。

知识图谱的工作原理

知识图谱通常由来自各种来源的数据集组成,这些数据集的结构通常不同。架构、标识和上下文协同工作,为各种数据提供结构。架构为知识图谱提供框架,标识对基础节点进行适当分类,上下文确定该知识存在的设置。这些组件有助于区分具有多种含义的单词。这使得产品,如谷歌的搜索引擎算法,可以确定苹果品牌和苹果水果之间的区别。

由机器学习驱动的知识图谱利用自然语言处理 (NLP) 通过称为语义丰富的过程构建节点、边缘和标签的综合视图。引入数据时,此过程允许知识图谱识别单个对象并了解不同对象之间的关系。然后将这些工作知识与其他数据集进行比较和整合,这些数据集在性质上是相关且相似的。一旦知识图谱完成,它允许问答和搜索系统检索和重用给定查询的综合答案。虽然面向消费者的产品展示了其节省时间的能力,但相同的系统也可以应用于商业环境,消除了手动数据收集和集成工作,以支持业务决策。

围绕知识图谱的数据集成工作还可以支持新知识的创建,在以前可能没有实现的数据点之间建立联系。

知识图谱使用案例

有许多流行的、面向消费者的知识图谱,它们为整个企业的搜索系统设定了用户的期望。其中一些知识图谱包括:

  • DBPedia 和 Wikidata 是两种不同的知识图谱,用于 Wikipedia.org 数据。DBPedia 由来自维基百科信息框的数据组成,而维基数据则侧重于二级和三级对象。两者通常都以 RDF 格式发布。
  • 谷歌知识图谱通过谷歌搜索引擎结果页面(SERP)表示,根据人们搜索的内容提供信息。该知识图谱由超过 500 亿个对象组成,数据来自 Freebase、维基百科、CIA World Factbook 等。

但是,知识图谱在其他行业也有应用,例如:

  • 零售:知识图谱一直用于追加销售和交叉销售策略,根据个人购买行为和人口统计群体的流行购买趋势推荐产品。
  • 娱乐:知识图谱还用于基于人工智能 (AI) 的内容平台(如 Netflix、SEO 或社交媒体)的推荐引擎。根据点击和其他在线互动行为,这些提供商会推荐新内容供用户阅读或观看。
  • 金融:该技术还被用于金融行业的了解你的客户 (KYC) 和反洗钱计划。他们协助金融犯罪预防和调查,使银行机构能够了解其客户的资金流动并识别不合规的客户。
  • 医疗:知识图谱还通过组织和分类医学研究中的关系使医疗保健行业受益。这些信息通过验证诊断和根据个人需求确定治疗计划来帮助提供者。