知识图谱描述
知识图谱是一种新型的数据库,是一种基于图的数据结构。每个结点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。以下为知识图谱的几点作用: - 从“关系”分析问题 - 把不同种类的信息连接在一起 - 一个关系网络
学习知识图谱首先得掌握以下几种技能: 1. 基础知识:自然语言处理、图数据库操作知识、基本编程能力:Python、SQL; 2. 领域知识:知识图谱构建方法、知识图谱推理方法; 3. 行业知识
知识图谱的构建步骤
- 数据收集(持续收集与更新)(关键词抽取、命名体识别、关系抽取、事件抽取)
- 原始数据,通常可能是一篇文章
- 爬虫技术
- 垂直爬虫
- 搜索引擎相关的爬虫
- 爬虫技术
- 语料数据,通常词库,词典,同义词
- 开源的第三方知识图谱,例如搜狗人物关系图
- 开源的训练好的词向量(word2vec)模型,tfidf
- 原始数据,通常可能是一篇文章
- 图谱设计
- 实体定义(本体) 实体:实体类型
- 属性 例如,手(长度,面积),类别:身体器官
- 属性定义
- 关系定义
- 关系也需要定义类别
- 需要评估关系可以覆盖的数据量,一般服从28 原则,20%的关系,覆盖80%数据
- 实体定义(本体) 实体:实体类型