大数据基础知识(一)常见名词概念

大数据基础知识(一)常见名词概念
最新回答
口拙嘴笨

2023-06-19 22:01:09

大数据基础知识(一)常见名词概念1. 时空数据可视化

时空数据可视化是一种数据可视化技术,旨在展示与时间和空间相关的数据信息。它帮助人们更直观地理解数据随时间和地理位置的变化趋势、模式和关联性。常见方法包括:

  • 时间序列图表:用于显示随时间变化的数据趋势,如折线图和面积图。
  • 热力图:用颜色渐变表示不同地区的数据密度或强度,展示空间分布情况。
  • 地图可视化:使用地图展示数据在地理空间上的分布和变化,包括点标记、气泡图、填充地图等。
  • 动态图表:通过动画或滑块控件展示数据随时间变化的动态过程。
  • 空间网络图:可视化连接在空间上相互关联的节点或地点之间的关系。
  • 时间轴:将数据在时间上的变化以线性或非线性方式展示,帮助追踪随时间的演变。
  • 交互式可视化:使用交互式工具和控件,使用户能够探索数据并根据需要调整视图。

时空数据可视化广泛应用于气象学、地理信息系统(GIS)、交通规划、环境科学、社会学、经济学等领域。

2. 大事务和长事务监控

大事务和长事务监控是数据库管理中的重要方面,用于确保数据库的健康和性能。

  • 大事务(Big Transactions)监控:涉及执行时间长或大量数据的数据库事务。监控内容包括执行时间、锁定情况和资源使用,确保不会耗尽数据库资源。
  • 长事务(Long Transactions)监控:指执行时间较长的事务,可能因各种原因未能及时完成或提交。监控内容包括事务执行时间、提交情况和错误处理,及时发现并解决问题。

通常使用数据库管理系统(如MySQL、PostgreSQL、Oracle等)自带的监控工具或第三方性能监控软件进行监控,确保数据库的稳定和高效运行。

3. 数据一致性核验

数据一致性检验是在数据处理、传输或存储过程中,对数据一致性进行验证的过程。目的是检测数据是否在期望范围内,并符合既定标准或规则。步骤包括:

  • 数据采集:收集需要检验一致性的数据。
  • 数据转换:进行格式转换或预处理,满足一致性检验需求。
  • 数据比对:对比需要比较的数据,查找差异。
  • 一致性规则定义:定义数据一致性的标准或规则。
  • 一致性检验:应用规则对数据进行验证,并记录结果。
  • 异常处理:发现不一致时进行数据修复或人工干预。

数据一致性检验在数据库系统、分布式系统、数据仓库和数据传输过程中至关重要,确保数据的准确性和可靠性。

4. 横向拓展(Scale-out)

横向拓展是并行添加更多等效功能组件以分散负载,与纵向扩展(Scale-up)形成对比。

  • 横向拓展:通过增加具有完整功能的节点进行扩展,节点之间内部物理互联距离可以很远。适用于需要处理大量并发请求或数据的场景。
  • 纵向扩展:通过使组件更大或更快以处理更大的负载,如将应用程序从具有2个CPU的虚拟服务器迁移到具有3个CPU的虚拟服务器。

5. 数据碰撞

数据碰撞是通过专门的计算机软件对两个或两个以上的数据库/数据集进行碰撞比对,并对重合数据、交叉数据进行深度分析的技术。步骤包括:

  • 确定查找对象:如嫌疑人的行为轨迹、身份信息、同行人员的查找等。
  • 筛选相关数据集:根据查找对象确定并筛选一定时空范围的相关数据集。
  • 碰撞比对:对选取的数据集进行碰撞比对,匹配出的交叉数据为可疑目标数据。
  • 分析研判:对节点数据进行分析,获取更多线索,确定侦查方向。

数据碰撞的原理是基于全面的数据化,用以碰撞的数据集之间必须是同类数据,且通常是带有识别性的数据符号(标识数据)。在碰撞中,时空数据作为限制条件,提高碰撞的准确性。

6. 基础库、主题库、专题库的区别
  • 基础库(Raw Data):存储原始数据,未经加工和处理,数据格式原始,难以直接使用。
  • 主题库(Data Warehouse):对基础库数据进行处理加工后的数据仓库,数据经过清洗、整理,按业务主题分类组织,支持复杂分析操作。
  • 专题库(Data Mart):在主题库基础上,为满足特定分析需求而建立的专门用于存储某个业务领域的数据仓库,是主题库的子集,结构更简单。

三者关系为基础库是数据源,主题库是核心,专题库是主题库的子集。

7. 政务数据里的基础库、主题库、专题库
  • 基础库:业务中原有的表,如常住人口、企业登记等。政府电子政务中的四大基础库包括人口基础数据库、法人数据库、宏观经济数据库、自然资源与空间地理数据库。
  • 主题库:按主题分类标准组织数据,把政务信息资源按主题划分成可管理的单元,强调数据库在多个部门或多个应用系统间的“共建共用”。
  • 专题库:某领域内的某特定时期的专项业务组织起来的表,侧重于某一专题的数据库,常针对某类专业应用而建立。

表现形式上,它们通常以SQL库为主,都是数据库表按一定规则组织到一起。