Skip to content

《大数据时代的知识图谱》阅读笔记

写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

第一章:知识图谱基础

1.1.课程介绍

  • 知识图谱平台实施步骤:问题定义、收据收集、数据预处理、知识图谱设计、存储知识图谱、应用知识图谱、系统评估

  • 知识图谱落地流程:落地流程、技术 选型、数据源及其数据预处理、图谱设计原则、图谱知识应用、金融风控图谱详解、税务知识图谱分析实例分析

  • 设计知识图谱原则:业务原则、分析原则、效率原则、冗余原则

  • 行业知识图谱同意消费:知识推荐、智能问答、语义搜索、知识聚合、图谱分析、文档分析、辅助文档编制、可视化展示

  • 知识图谱各行业解决方案:公检法、金融、情报、医疗医药、企业服务、科教、餐饮

  • 行业知识图谱全生命周期管理:知识建模、知识获取、知识融合、知识存储、知识计算、知识应用

  • 图分析常用指标:度中心性、接近中心性、中介中心性、聚类系数、三角系计数、连通分量

  • 图分析常用算法:遍历和寻路算法(并行广度优先算法、并行深度优先搜索、单源最短路径、全对最短路径、最小权重生成树)、中心性算法(PageRank、程度中心性、亲密度中心性、中介中心性)、社区检测算法(标签传播、强连通、并查集/联通分量/弱连通、Louvain模块度、局部集聚系数/节点聚类系数、三角计数和平均聚类系数)

1.2.认识知识图谱

  • 金融风控系统、推荐系统、个体到社群

1.3.什么是知识图谱

  • 知识图谱也可以叫做多关系图,他通常包含多种类型的关系和边

  • 实体指的是现实世界中的事物,关系指实体之间的关系

1.4.知识图谱的表示

  • 属性图:当一个知识图谱同时包含关系与属性时候

1.5.知识图谱的计算

  • 大数据平台(Spark GraphX)、图算法、社交网络的分析(常用算法:Community Detection)、万维网WWW(常用算法:PageRank)、计算生物学(如:研究分析活动路径,蛋白质之间作用等)、工程(如:集成电路的设计)、科学计算(如:图划分、图着色、图匹配)、安全领域(如:安全事件分析)

1.6.知识图谱的存储

  • RDF(存储三元组、标准的推理引擎、W3C标准、常用于发布数据、多数为学术界场景)、图数据库(节点和关系可以带有属性、没有标准的推理引擎、图的遍历效率高、事务管理ACID、基本为工业界场景)

  • 三元组定义〈subject-predicate-object,Subject实体、Object实体、predicateL关系,注意节点和边都不包含属性〉

  • RDF主要用于学术界,易于数据的发布、分享;图数据库主要来自于工业界的需求,拥有一般数据库拥有的特性,比如事物管理、权限管理等等,图数据库用来做高效率的图查询

  • NoSQL数据库不处理关系

  • 常用的存储系统:Neo4J、OrientDB、JanusGraph、Jena、TigerGraph等

  • Neo4j对内存要求比较高

1.7.知识图谱与人工智能的关系

  • 人工智能三种流派:符号主义(其原理主要为物理符号系统假设和有限合理性原理)、连接主义(其原理主要为神经网络及神经间的连接机制与学习算法)、行为主义(其原理为控制论及感知-动作型控制系统)

  • 金融归根接地要解决的是风控问题,包括个人贷款、风险定价、保险、证券投资等

第二章:知识图谱落地流程

2.1.知识图谱落地流程

  • 项目成功的因素(业务理解30%、知识图谱设计30%、算法20%、开发20%)

2.2.知识图谱技术选型6大思考

  • 有没有强烈的可视化需求

  • 有没有深度搜索的场景

  • 有无实时查询的要求

  • 数据多样性、解决数据孤岛问题

  • 是否有能力和成本去搭建知识图谱系统

  • 是否有一定的知识推理的需求

2.3.知识图谱数据收集

  • 用户基本数据、用户行为数据、运营电商数据、黑名单数据、公开数据

2.4.知识图谱设计四原则

  • 业务原则:一切要从业务逻辑出发;分析原则:任何一个实体都是为关系分析而服务;冗余原则:避免把超级节点放入到知识图谱中;效率原则:尽量轻便、只存储关键信息

2.5.知识图谱规则应用设计

  • 基于规则的方法;基于概率的方法;

  • 知识图谱起到的最大作用就是搜索能力;

  • 风控应用关键需求:营销、申请、授信、交易、催收

2.6.金融风控图谱详解

  • 业务目标:实现知识图谱反欺诈功能;实现辅助信审功能;实现贷后监控支持功能;

  • 利用知识图谱实现欺诈识别:社会关系图谱、交易关系图谱、通话记录图谱、设备ID图谱、IP/WIFI网络图谱、时空关系图谱

  • 利用知识图谱实现授信辅助:目标关联信息查询、知识推理发现新关系

  • 功能实现方式:系统自动化实现(基于事件或时间驱动的发现规则,利用图查询语言或API发现异常,并发出预警)、结合人工参与(业务人员利用可视化界面,进行用户及相关实体全面信息查询、探索发现异常事件)

2.7.图谱可视化分析实例

第三章:知识图谱实战与算法

3.1. 图数据库选型

  • 图数据库是基于数学里图论的思想和算法而实现的高效处理复杂关系网络的新型数据库系统

  • 图中每个节点代表一个对象,节点之间的连线代表对象之间的关系。节点和关系都可以带若干属性

  • 为何要用Neo4J:世界领先、社区活跃、可伸缩性、超高性能、最易学习

  • Neo4J关键产品特征:确保数据一致性和性能、实时下每秒达数以百万跳、数据建模更加自然、完全支持ACID事务处理、比SQL要少10到100倍的代码、图的垂直和水平伸缩优化、其他数据库的无缝导入、流行语言的驱动程序及API

3.2. 代码实战讲解图谱创建与查询

  • 示例:明星关系图

  • 查询周迅的直接关系

  • 查询周迅与王菲的所有最短路径

3.3. 知识图谱算法

  • 广度优先算法BFS、深度优先算法DFS、单源最短路径、全源最短路径、最小生成树、PageRank、Degree Centrality、Closeness Centrality、Betweenness Centrality

3.4. 算法之社区发现

  • 什么是社区:通常基于节点之间直接的连接

  • 所有节点都有到其他节点的路径:联通子图、弱联通图、强连通图

  • 社区内的连接数大于社区间的连接数

  • 社区发现算法分类:完全图发现、联通子图、标签传播、模块度优化

第四章:知识图谱落地应用进阶

4.1. 知识图谱8大应用场景

  • 场景一:精准营销

  • 场景二:智能问答(语义意图识别、会话式BI、KBQA),基于知识图谱技术通过对问题进行语义理解及解析并返回答案

  • 场景三:知识推荐,基于知识图谱的推理计算,根据用户的查询请求、行为日志以及用户信息,向用户推荐各种相关内容

  • 场景四:知识聚合,对多源异构数据进行整合,多维度展现某一实例的全部信息

  • 场景五:可视化展示,通过对多源异构的知识数据进行融合、统计,从而能够从多维度进行统一分析,辅助决策

  • 场景六:图谱分析,基于推理、图计算等相关技术,对实体及其关系进行计算分析,或按照预定义的规则进行规则检验和预警、发现隐含关系

  • 场景七:文档加工:基于自然语言处理,实现对文档结构化处理

  • 场景八:辅助文档编制,基于自然语言处理,实现对文档结构化处理,结合知识图谱形成篇章级别的文档知识库,辅助业务人员进行智能文档编制或阅读

4.2. 知识图谱7大主流行业应用

4.3. 知识图谱在其他领域的应用举例

4.4. 认知计算平台概要

  • 网感TML是一个认知计算平台,基于对海量非结构化数据额深度洞察来快速高效的建立人工智能

  • 第一步:将各种异构的数据清洗、对齐、打通、去重、统一符号;第二步:定义和抽取业务所需的成千上万的语义要素,将文本根据知识体系完全结构化;第三步:基于结构化之后的海量数据深度学习建立预测推理能力;

  • 用户价值:满足业务中语义结构化的需求、海量非结构化的深度学习、知识图谱和认知计算的输出、建立垂直行业的人工智能

  • 系统优势:语言和知识计算的操作平台(平台化);细粒度的语义建模(细粒度);解决深度学习的冷启动问题(冷启动);对海量文本匹配速度与知识图谱规模基本无关(速度性能);

  • 认知计算平台是文本挖掘领域的通用技术平台。相对于达观数据、拓尔思、第四范式、零玖软件等文本挖掘技术提供商有下面三大优势:专家系统+深度学习的综合解决方案,提供语言和知识计算的基础设施,知识工程的标准化和工程化;

第五章:工具化知识图谱平台各模块落地设计

5.1. 工具化知识图谱国外内产品分析

  • 国内:明略数据、南京智器云科技、星环科技、达观数据、厦门渊亭科技、北京海致星图、智言科技

  • 国外:Palantir、kensho、GRAKN.AI

5.2. 知识图谱架构设计

  • 行业图谱全生命周期管理平台:知识建模、知识获取、知识融合、知识存储、知识计算、知识应用

5.3. 工具化知识图谱落地实例

  • 基于Neo4J+mysql的关系图谱探索:数据管理、概念配置、数据建模、调度计划、图谱分析、场景分析

  • 概念定义:实体定义(企业、个人)、属性定义(企业的规模、行业)、关系定义(企业与企业之间的投资关系、开票关系)

  • 关系管理:1-RDF中,实体属性图,三元组;2-Neo4j中,属性图

  • 常见数据导入方式概览:Cypher create语句;Cypher load csv语句;官方提供的neo4j-import工具;官方提供的Java API BatchInserter;大牛编写的batch-import工具

5.4. 知识图谱落地实践思考

  • Igraph:内容化产品,es,对抽取知识的场景多维统计;JanusGraph(Titan的一个fork)+hbase;PlantData:mysql+mongodb+es关系分析、会话、搜索等场景;海致星图:arrango、明略JanusGraph

  • KGInsight大数据存储与管理平台、分析与挖掘平台、图谱应用平台、业务应用

第六章:知识图谱产品设计进阶

6.1. 智能问答产品说明

  • 2020年Gartner数据和分析技术趋势:增强分析、持续型智能、可解释的人工智能、自然语言处理

  • 智能发现:瞬间解答自己能够想出的任何问题

  • 如何构建一套智能问答系统:元数据管理、规则库管理、指令库管理、推理库管理

6.2. 构建智能问答逻辑(NL2SQL)

6.3. 智能问答NLP流程

6.4. 智能问答语料使用

6.5. 智能问答模型选用对比

  • AR与AE语言模型

  • Word Embedding与ELMO:预训练Feature base pre-training

  • GPT:Fine-tuning pretraining

  • BERT

  • MT-DNN与ERNIE2.0:预训练+多任务学习

  • XLnet、RoBERTTa:改进的语言模型

  • BERT-WWM:针对中文领域的预训练

  • 本项目采用bert

第七章:本套课程总结

  • 进阶内容:数据中台、AI中台、大数据时代的知识图谱成长之路

  • 赠送资料:Gephi课程,知识图谱可视化详解;Janusgraph资料

写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无