糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > 图数据科学-1.理解图和图数据科学

图数据科学-1.理解图和图数据科学

时间:2018-07-30 09:19:58

相关推荐

图数据科学-1.理解图和图数据科学

简介

连通性是最普遍的特征今天的网络和系统。 从蛋白质相互作用到社交网络,从通信系统到电源网格,从零售体验到供应链,网络与即使是适度的复杂度也不是随机的,这意味着连接既不是均匀分布的,也不是静态的。 简单的仅靠统计分析无法充分描述,更不用说预测,连接系统内的行为。随着世界变得越来越相互联系,系统越来越复杂,使用构建来利用相关的技术关系及其动态特性是必不可少的。 不是令人惊讶的是,对图数据科学(GDS)和图分析的兴趣lytics 已经爆炸式增长,因为它们被明确地开发以获得来自互联数据的洞察。 GDS 和图形分析揭示了复杂系统和网络的大规模运作。

数据的图形方法在商业中呈爆炸式增长更好地揭示数据和预测的意义复杂系统的行为。 这次爆发是由于增加数据的连通性,缩放图的突破技术解决企业级问题,效果极佳与机器学习 (ML) 和人工智能相结合(AI) 解决方案,以及更易于访问的通用分析工具和数据科学团队。

在本章中,您将了解我们如何定义图和相关性图对分析和数据科学的作用。 您还将获得一个如何使用图形来回答棘手问题的基础关于复杂系统。

解释什么是图形

网络是一种表示,一种理解复杂系统的工具项以及当今数据中固有的复杂联系。为了例如,您可以通过思考来表示社会系统的运作方式关于人与人之间的互动。通过分析此表示的结构,您可以回答问题和预测系统如何工作或如何个体化uals 在其中行事。从这个意义上说,网络科学是一组适用于几乎任何领域的技术工具,图形是用于执行分析的数学模型。简单的说,图是复杂系统的数学表示。

图的历史可以追溯到 1736 年。 图的起源理论来自柯尼斯堡市,其中包括两个大型相互连接的岛屿和两个大陆部分由七座桥组成的城市。谜题是创建一个步行穿过这座城市,穿过每座桥一次且仅一次。莱昂哈德·欧拉通过询问是否可以访问所有来解决这个难题一座城市的四个区域由七座桥连接,而只有跨每座桥一次。不是。凭借只有连接本身的洞察力为了解决这类问题,欧拉建立了图论及其数学的基础。作为其中之一欧拉的原始草图,图 1-1 描绘了欧拉的进展:

虽然图起源于数学,但它们也是一种实用的用于建模和分析的数据的物理和忠实表示是的。 图是网络的表示,经常被说明用圆圈表示实体,也称为节点或顶点,以及他们之间的线。 这些线被称为关系、链接、或边缘。 将节点视为句子中的名词,而关系-作为动词提供给节点的上下文。 为避免任何结融合,我们在本书中谈论的图无关用图形方程或图表。 看看区别在图 1-2 中。

图 1-2 左侧底部的图是人物图。

查看该图时,您可以构造几个句子来描述它。 例如,A 和 B 住在一起,B 拥有一辆汽车,A 驾驶一辆 B 拥有的汽车。 这个模型—方法很容易映射到现实世界并且是白板 -友好,这有助于对齐数据建模和分析。我们经常将“白板友好”一词用于任何事情这很容易用简单的图画来描述,你可以想象在白板上进行交易。

定义图分析和图数据科学

建模图只是故事的一半。 您可能还想分析它们以揭示并非立即显而易见的洞察力。 所以

在本节中,我们将解释图数据科学 (GDS) 的领域和图形分析。

GDS 是一种科学驱动的方法,可从数据中的关系和结构,通常用于预测。 它使用多学科工作流,可能包括查询、统计、算法和机器学习。

GDS 通常可以分为三个方面:

»图统计提供有关图的基本度量,比如节点的数量和关系的分布——船舶。 这些见解可能会影响您如何配置和执行更复杂的分析以及解释结果。

» 图分析建立在图统计的基础上,通过回答特定问题并从联系中获得见解现有或历史数据。 图查询和算法是通常在图形分析期间一起应用在“食谱”中,并将结果直接用于分析。

» Graph-enhanced ML 和 AI 是图数据的应用和分析结果来训练 ML 模型或支持概率人工智能系统中的列表决策。图统计和分析通常结合使用回答有关复杂系统和随后的见解,应用于改进机器学习。

查看问题的类型用于 GDS

数据科学家在使用时尝试解决多种类型的问题GDS 用于评估相互依赖性、推断含义和预测行为。 在最抽象的层面上,这些问题属于几个广泛的领域:运动、影响、群体和互动,和图案,如图 1-3 所示。

图 1-3 中的区域回答以下问题:

» 事物如何通过网络传播(移动)?了解事物如何通过网络移动涉及深度路径分析以寻找传播路径,例如疾病或网络故障的途径。也可以使用优化最佳路线或流量控制应变。我们介绍了路径算法的这些经典用途第 3 章中有更多内容。

» 影响最大的点是什么?识别影响ers 涉及发现结构良好的节点表示网络中的控制点。这些影响者可以作为快速传播点、桥梁连接较少的组或瓶颈之间。影响者可以加速或减缓物品通过网络的流动从财务到意见。高度连接的概念图中有影响力的节点称为中心性。中心性算法对于理解至关重要网络中的影响。

» 有哪些小组和互动?检测通勤nities 需要根据相互作用的数量和强度。这种方法是假定组关联的主要方法,尽管邻居相似度也可能是一个因素。链接预测是关于基于网络推断未来(或看不见的)连接结构体。经常使用启发式链接预测算法来预测行为。除了社区检测算法,相似度算法也用于理解分组。

» 哪些模式是重要的?发现网络模式揭示了相似之处,也可用于一般勘探。

例如,您可能会寻找已知的关系模式在几个节点之间或比较所有你的属性节点寻找相似之处。 或者你想评估网络的整个结构,及其错综复杂的层次结构,将模式与某些社会行为相关联调查。 聚合相关但模棱两可的信息在大型数据集中是一项常见的活动,它依赖于寻找类似和相关的信息。 寻找模式可能使用简单的查询或找到的各种类型的算法在第 3 章。

多种类型的图查询和算法通常是作为 GDS 工作流程的一部分,以配方方式应用,用于了解图中关系密度的查询可能有助于确定适当的社区检测算法最相关结果的算法。 从战术上讲,图形查询和算法是理解整体性质的工具一个连接的系统并用于在各种数据中使用关系科学管道。

图形数据科学的兴起

图数据科学 (GDS) 的兴起是更易于访问的结果技术,提高了计算海量图形数据的能力,以及对图推断意义和的能力的认识改进预测。 研究人员在发展中发挥着重要作用意识和倡导最好的技术。 作为数据科学家看到结构信息的效力,它们越来越不整合将图表移植到他们的统计、分析和机器学习实践中。 在事实上,根据 Dimensions Knowledge 系统进行研究出版物,图技术在人工智能研究中的使用正在加速。 在过去的十年中,人工智能研究论文的数量真图技术增长了 700% 以上。

如果觉得《图数据科学-1.理解图和图数据科学》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。