- 2021-06-04 发布 |
- 37.5 KB |
- 81页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
大数据中心建设思路
数据中心建设思路 国网 数据中心概念 数据建模设计 梳理采集( ETL ) 数据 存储 数据服务总线 数据中心建设任务 数据整合 —— 3 统一 (模型、数据源、口径) 综合分析 —— 横向分析 专业应用 —— 纵向关联分析 数据共享 —— 数据服务、企业总线 4 数据 中心目标架构 展示层 数据分析 应用层 数据 集市层 企业数据仓库 (EDW) 数据 存储层 数据源层 跨专业综合分析 营销分析 财务分析 生产分析 设备分析 人力分析 计划分析 综合统计分析 电力市场分析 营销 生产 电力市场 综合 ERP 紧耦合业务应用数据 营销、生产、综合等业务应用和其它外部数据 DSO PSA InfoCube 物资分析 项目分析 跨专业 综合集市 企业门户 ODS 数据抽取 数据整理 数据转换 数据汇总 集中存储 数据分析 应用方式 展现方式 源系统 5 数据中心执行架构 批处理服务 性能与可用性服务 通用服务 最终用户访问 数据抽取 数据源 系统、非系统 数据存储 知识发现 在线分析 查询 数据访问 报表 报表 元数据管理服务 技术元数据 业务元数据 元数据知识库 数据仓库架构 数据访问 数据访问架构 门户系 统 数据全域服务 任务重启与 恢复 任务调度 监控 被拒绝数据 管理 错误处理 异常 日志与审核 跟踪 文件传输帮 助 数据归档 线程管理 参数化 文档管理服务 数据注解 应用连接服务 中间件连接 器 抽取 转换 数据 集市 数据仓库 加载 数据缓 存 ODS 排序过滤 清洗 抽取 转换 关联 更新 加载 DSO 套装软件业务 6 数据中心物理架构 业务系统数据库服务器 心跳线 DSO/DM 磁带库 光纤交换机 光纤交换机 磁盘柜 存储 WEB 备份服务器 BI 应用服务器群 ETL/Monitor/Analysis ETL Analysis HP ODS DW/DM BI 应用服务器可由多个服务器组成应用集群 数据中心建设的终极目标 统一且完善的企业信息模型 统一数据源、统一数据口径 一致的数据出入口(数据服务总线) 管控中心(各种专业分析) 企业统一数据模型 数据边界 —— 顶层信息模型 实现最终目标的困难 数据源不健全、数据质量差 模型 统一设计工作量大 底层建设成效缓慢 11 网省电力数据应用所面临的挑战 业务挑战 现有分析系统仅提供简单的报表能力,功能单薄 领导层无法从企业全局角度出发对企业各个业务条线进行跨业务、多角度、多层次的综合分析 业务分析系统多集中于各自专业领域,而跨业务专题的分析应用能力尚不具备 存在相同数据多头上报并且上报数据不一致的问题 缺乏对现有数据的高级分析应用,没有合理地发挥和利用网省电力业务数据资产的价值 技术挑战 各个业务系统相互独立,业务人员难以进行跨系统业务分析 现有分析型系统与相应生产型系统耦合性较强,受到生产型系统影响较大,缺乏对全业务分析的支持 数据不一致问题较严重,对于相同业务数据存在多个不同版本 各业务系统自行管理数据,业务数据的含义在企业的各个部门内存在不一致的解释 各类业务系统内数据质量较低 业务因素 数据分析类型划分不够明确 缺少统一的报表与指标体系规范 缺乏明确的数据认责 技术因素 缺乏规范的数据架构 缺乏明确的数据定义 数据分布不合理 数据模型不一致 数据管理不规范 缺乏企业级整合的数据 缺乏有力的系统实施和使用管控机制 数据中心的建设策略 短期见效、应用驱动 展现全局指标数据,早出成果,短期见效,以应用促建设 非源头数据直接导入,健全全局类指标 数据 转移部分业务系统查询功能 切断统计途径 推动数据中心应用 数据中心建设 最终是为解决业务部门专业分析能力而服务 ,在这个逐步推进、不断完善成熟的过程中,应着重解决影响应用实用性不强的如下几点: 好的经验、方法和操作流程是关键,促进信任关系的建立,解决互不信任的局面。 在一套有效的方法的指导下,同时遵照一个好的流程,就容易得到领导支持,得到业务人员的有效参与和技术人员的有力配合 解决长周期项目中期没有任何产出的现状 消除领导及业务人员对数据中心建设疑虑 建 设期间、获取业务人员对实施过程中的认可和支持,从而不断增强他们对项目的信心及应用实用性的肯定 解决企业数据“进口”与“出口”数据统一 切断网省业务人员获取统计数据的其他来源,统一定义从数据中心获取 切断业务应用向总部交换数据的其他途径 1 2 3 业务部门主导 过程中不断出 成果 切断原有数据统计、汇报方式 数据中心的建设方式 1 、自顶向下(追溯法 分析应用法) 既 先分析报表中指标数据,再根据指标的构成进行追溯分析,直至建设粒度到最小的、不可再分的业务细节数据;这种方式有利于梳理统计类指标,分析企业中各统计指标的口径。侧重纵向数据关联。 2 、自下而上(数据整合法) 这种 建设思路是先建立企业的概念模型,然后利用数 据仓库和企业建模标准等思想进行全面的数据模型设计、物理模型 设计。 侧重横向分析和 标准建设。 3 、折中建设 建设方法对比 方法 1. 先数据整合、再构建分析应用 方法 2. 先构建分析应用、再进行数据整合(或者不进行全局整合) 方法 3. 边构建分析应用、边进行数据整合 优势 挑战 适用于 业务较为简单或业务需求明确 数据基础 较好 有成熟建模经验 业务条线复杂、数据基础水平不一、应用需求层次 不同 要具备成熟的数据标准和数据模型 数据整合投入较大,短期内与分析应用收益不能相符 可实行有效的数据质量管理 可快速进行分析应用的扩展 分析应用快速见效 数据质量无法保障 只能满足部门级使用 分析应用快速见效 逐步深化的建设方法,兼顾效率和可扩展性 调动业务驱动力工作方法的统一一致 建设团队的有效分工、协作 建议采用 方法 3 进行数据中心数据整合的建设 分析应用演进 细节数据 单指标分析 综合分析 专业分析建设方法 17 业务驱动力梳理 分工协作模式确认 建设任务分工 实施验证 业务部 门专业分析建设驱动力调研 按专业 分析建设指导思路,深化业务部门专业分析需求调研 按数据耦合度分工 建设 可按源系统接入管理、数据整合管理、分析应用建设管理的方式分工建设 组建专业分析应用建设团队, 同数据 中心运维团队建立分工协作机制,有效推进数据整合工作 按试点、推广、验证的数据中心建设流程迭代 完成数据 中心逐条线建设策略的部署 18 选择合适专业分析应用 满足 业务部门需要量身定制的业务需求 生产分析举例 典型日负荷曲线增长趋势分析 峰谷差分析 责任频率合格率分析 电压合格率分析 变压器负载情况 分析 安全生产分析举例 人身事故分析 设备事故分析 电网事故分析 电力设施保护分析 设备障碍情况分析 避免综合统计查询建设涵盖面广、集中展现指标集合的现象 解决数据粒度粗放,业务主题分析不够深入的问题 按专业分析条线逐步完成数据整合,有利推动一体化平台数据中心的建立 专业分析深入性强 实施路线成熟度高 分析深入性强,需求定义严谨 专业分析内部耦合性强 设计结构要求严谨 专业分析 19 数据 中心共享演进 继续完善数据交换平台,提升交换效率、性能,足以支持远程大数据传输的实现。 在服务质量保证方面,关注数据交换场所的安全性、可靠性。 构建数据交换接口区数据接口规范, 随着数据 仓库建设的进度而扩展接口区数据规范。 综合数据交换区域 营销数据交换区域 生产数据交换区域 ERP 数据交换区域 共享数据 区域设计 总部深化数据获取日报数据 细化 数据深度 提升 数据共享性能 完善优化 完善特定业务需求的级联要求 基本成型 完成基于细粒度历史数据的专业分析 数据 起步速成 完成基于粒度粗放数据的综合指标查询 数据 数据中心功能设计 21 展示层 数据分析 应用层 数据集市层 八大业务应用数据和其它外部数据 安全生产 财务绩效 设备生产 企业数据仓库 (EDW) 数据仓库层 数据的抽取 / 清洗 / 整合 数据源层 安全生产分析 营销分析 财务绩效分析 电网运行分析 设备生产分析 人力资源分析 项目分析 物资分析 综合统计分析 电网运行 电力市场分析 人力资源 项目 电力市场 营销 物资 综合统计 网省电力公司数据仓库逻辑架构 数据应用分析通过企业级数据仓库及数据集市提供数据支持,并通过前端展示层将分析的结果用合适直观的方法展现给最终用户 22 数据仓库能力蓝图 数据 仓库 集中整合 信息描述 数据移动 分析展现 质量保障 高级应用 提供多维分析能力,使得用户能够把一个实体的多项重要属性定义为多个维度进行深入分析,并能对不同维度值的数据进行比较;同时,还需具备数据挖掘能力,帮助业务分析人员在现有数据中识别数据的模式,针对整个企业的状况和未来发展作出较完整、合理、准确的分析和预测,从复杂难懂的数据中发掘出 指引企业发展 需要的路径 提供标准的报表和图表功能来帮助不同管理层人员做出正确决策;针对具体分析应用建立数据集市为前端提供高效的数据查询和分析服务 为了方便整个数据仓库保存信息的管理,需要具备强大的元数据管理功能,以实现各类技术术语与流程 在企业内部 的统一定义 通过数据仓库, 使得数据 按照业务主题进行存储,完成对分散数据的整合工作,形成企业内部“唯一事实” 提供较强的数据抽取、转换与加载能力:能够高效地将前端业务分析所需要的各类数据移动到数据仓库内,根据预先制定的业务规则对数据进行处理转换使其符合目标数据格式,并根据前端展现需求提供高性能数据加载机制 数据仓库应该具备完善的数据质量管理机制, 确保企业内部 数据的一致性与准确性,提升数据仓库分析结果的可信性 23 数据应用的业务目标 根据对国际先进电力企业的研究,数据应用工作可以通过提高四项能力(即电网安全运营管理、电力营销及服务、财务绩效分析和资源计划及决策)来 促进电网 的业务发展。 数据应用 提高 电力营销管理及服务 能力 通过对用电量、电费、电价的分析,提高电量的需求预测能力、价格制定能力 全面了解用电户的电力消费和缴费情况,帮助制定相关的用电政策和服务措施 . 分析营销手段及效果,提升营销策略的有效性 提高 电网安全运营管理 能力 通过对设备和电网的运行状况、检修、缺陷、事故的及时准确掌握,提高设备和电网的监控管理能力,科学管理电网设备资源; 通过对安全人身伤亡事故的分析,提高事故管理和防范能力 提高 财务绩 效分析 能力 反映企业单位的财务成果;指导企业单位降低成本和费用,增加收入;充分利用资金,创造好的经济水平 员工绩效分析,从组织和个人两个层面为绩效管理提供支撑依据。 提高 资源计划及决 策 能力 完善报表管理,为领导及时提供全面的关键业务信息。 通过国网业务运行状态的分析和监控,提高信息预测能力,为领导的科学决策提供保证, 电网用户 前台业务人员 后台管理人员 决策领导 数据分析应用的业务目标 —— 通过构建四项能力来促进网省电力业务的发展 24 数据分析应用基本涵盖了网省电力所有业务数据范围 安全生产分析 设备生产分析 财务绩效分析 电网运行分析 电力市场分析 营销分析 人力资源分析 物资管理分析 项目建设分析 业务监控 电量电费电价分析 销售分析 市场开发分析 需求预测 营销分析 线损信息分析 客户服务分析 机构构成分析 定员定岗分析 人员组成分析 工资分析 教育培训分析 绩效考核 报表与信息查询 销售分析 物资收入经济分析 物资消耗经济分析 物资库存经济分析 分析预算 超时限分析 市场信息分析 建设情况分析 投资情况分析 投产效果分析 分析与国网公司生产建设过程中发生的各类人身伤亡事故相关的数据统计 设备构成分析 设备动态信息分析 设备检修分析 设备缺陷分析 设备试验分析 财务指标 资金分析 成本分析 利润和收益分析 负荷分析 电压质量分析 电量平衡分析 网损分析 无功补偿分析 电网保护设备分析 交易量分析 交易费用分析 电力价格分析 市场需求预测 综合分析 计划统计 生产经营指标分析 用电营业指标分析 电网运行 产品成本、销售收入和利润 电网建设 安全指标 25 公司领导 财务人员 生产人员 计划人员 调度人员 人资部门人员 项目管理人员 科信管理人员 物资管理人员 营销人员 电力交易人员 网省电力各层次用户通过数据分析应用而受益 26 保证设备综合信息的完整性和历史性 从横向确保完整性: 设备运行的情况 设备消耗的水、煤、气记录 设备运行的可靠性记录 记录设备的测试信息 。。。 从纵向确保历史性: 当期 上期 历史同期 历年情况 。。。 设备管理监控人员 / 后台管理人员 数据整合支持 统一设备视图 设备台帐信息 设备检修 设备测试 设备故障 设备运行 设备消耗 设备事故 设备环境 设备可靠性 其他信息 (ODS) 数据仓库 ODS 保障数据的 时实可访问性 数据仓库保障数据的 历史性 统一信息视图提供了快速访问主题全面信息的能力 某电力设备 27 数据仓库建设策略比较 重复的 ETL 发开和数据整合,人力资源浪费 重复的 ETL 工具,前端分析工具,数据仓库平台软件的购买。 各自的数据模型设计,集市之与集市之间潜在的新一轮数据整合需求。 无丰富的企业全面业务数据支撑,无法提供跨系统的业务分析能力 集市各自的指标定义,在企业层面,容易出现不一致 不符合一体化平台建设要求 形成企业范围内统一信息视图 建设统一、可重用的 ETL 流程 ETL 工具,前端分析工具、数据仓库平台单次采购和开发,有效降低 TCO 丰富的企业全面业务数据支撑,领导以及业务人员能够得到更加丰富的数据 各业务部门可根据自身需求在统一数据仓库平台上建设更深层次的高级数据分析应用 建设元数据管理机制实现企业内术语理解一致 建设统一的数据管理机制,提升数据质量 推荐 实现方法 I— 业务部门单独建立各自数据集市, 无企业层面的统一的规化和协调 实现方法 II— 信息部门牵头统一建设企业数据仓库 VS 企业级数据模型建设目标与方法 29 企业级概念 数据模型 企业级逻辑 数据模型 企业 主题 主题逻辑 数据模型 物理 数据模型 指导 细化 概念数据模型 逻辑数据模型 物理数据模型 转换 当前已有成果 在相当长的时间内,还需要做的事情 数据模型建立过程 30 数据集市层 八大业务应用数据和其它外部数据 数据仓库层 数据源层 直接满足上层数据分析应用 要求查询的高效性和有针对性 高度聚合,一般无明细 从技术而言是星型模式 数据分析模型 ……… 主题 1 主题 2 主题 n ……… 基于主题域 侧重于对企业范围内数据进行整合 明细数据与聚合数据共享 从技术而言是 3NF 模式 数据仓库模型 数据模型在数据仓库架构中所处的位置 31 企业级概念数据建模目的 主题 主题 主题 主题 主题 主题 主题 主题 主题 业务 数据 业务 数据 业务 数据 业务 数据 业务 数据 业务 数据 业务 数据 业务 数据 业务 数据 数据分类 企业级概念数据建模的目标在于识别网省电力业务主要数据主题并根据各个数据主题间的逻辑关系划分其所属 数据主题域 。 数据主题域集中反映了某方面的业务内容,通常是同类或关联关系较为紧密的数据主题的集合(如,设备主题包括了设备台帐、设备运行相关事件等多个数据主题)。 数据主题 是任何可以区分的人、地点、事情、事件或概念,信息围绕它来保存。属性是实体的特性或数据字段。 数据主题域是数据仓库主题建模的基础,通过细化数据主题域即可建立统一的数据仓库模型。 统一数据仓库模型是网省电力公司数据仓库进行数据整合和集成的重要基础。 32 企业级概念数据建模方法 数据主题梳理 — 通过仔细分析网省电力公司各类业务系统详细说明, IT 咨询组从中梳理出网省电力公司业务所产生和需要的主要数据并形成数据主题清单,这些数据主要包括主数据和事物数据两部分:主数据是指客户、供应商、设备台帐等,而事务数据是指网省电力具体业务运营所产生的各种事务型数据,例如设备检测数据、调度交易数据等。 数据主题域设计 — 根据分析整理得到的数据主题清单,并结合这些数据的特点和网省电力具体业务关注点即可归纳抽像出数据主题域。主题域集中反映了主题相关的所有业务内容,通常是同类或关联关系较为紧密的数据主题集合 业务系统详细说明 数据梳理 数据主题清单 归纳整理 数据主题域 33 数据主题域划分 安全 客户 产品 设备 电网 财务 资产 物资 项目 人员与组织 综合管理 事故信息 事故损失 安全记录 客户基本信息 客户信用 客户电价 客户表计信息 客户变更 客户消费电能 客户帐单 客户负荷 客户缴费 客户产品订购 客户服务 产品基本信息 产品价格 产品质量保障 服务流程定义 设备台帐 设备运行 设备检修 设备测试 设备消耗 设备环境 设备故障 设备可靠性 电力成本 电力价格 电网结构 电力调度 电量交易 电力市场预测 科目 银行凭证 会计帐簿 财务报表 资产卡片 资产形成 资产租赁 资产借用 资产变更 资产调拨 资产报废 清产核资 资产折旧 投融资 资产报表 物资编码 物资分类 物资供应 库存信息 出入库管理 项目基本信息 项目计划信息 项目设计信息 项目管理信息 设备材料信息 竣工决算信息 投产成果信息 需求信息 费用信息 合同信息 招投标信息 业绩信息 职位信息 调动信息 奖惩信息 培训信息 社保缴纳 劳保领用 外事信息 人员基本信息 薪酬福利信息 社会保险信息 劳动保障信息 组织机构信息 法律 国际任务 同业对标 审计信息 纪检监察 计划统计 服务质量考核 服务绩效分析 34 数据主题域详细解释 安全 安全主题域用于描述公司运营过程中的人身事故、电网事故和安全损失等信息 客户 客户主题域主要由客户的基本信息、计费缴费信息、客户服务信息等组成 产品 产品主题描述国网公司提供的电能、热能与国网公司所提供服务的描述与价格信息以及与服务质量、服务效果相关的各类记录 设备 设备主数据用于描述企业发电、输电、配电、供电四大类在网运行设备资源、运行和调度信息、测试、破坏和环境等信息 电网 电网主题域包含了市场的电力价格、预测相关信息,网间、电厂电网的交易信息,以及电力调度中设备产生的相关数据 财务 财务主题域描述了财务的核算、预算、固定资产、资金数据以及会计账目等相关数据 资产 资产主题域描述了与国网公司各类有形/无形、金融/非金融资产相关的各类信息 物资 物资主题域描述了与国网公司的物资与物资管理相关的各类信息 项目 项目主数据表达了基建项目、跨区电网项目、投资项目、大修项目、技改项目、科技项目、用户项目和信息化项目的全生命周期的信息 人员与组织 人员与组织主题域用于描述公司业务活动中人和组织结构信息 综合管理 综合管理主题域描述同业对标、计划统计、审计、法律、纪检、国际任务信息 35 概念逻辑模型 36 主题域概念模型 产品 客户 安全 设备 37 主题域概念模型(续 1 ) 物资 电网 资产 财务 38 主题域概念模型(续 2 ) 综合管理 项目 人员与组织 39 数据建模一步工作:在概念模型基础上,进行国网公司企业级逻辑数据模型的建设 安全 客户 …… 企业级逻辑数据模型包含 近千个 业务实体及其复杂的关系 巨大的挑战!!! 企业级概念数据模型 细化 企业级逻辑数据模型 *企业级逻辑数据模型的建设应该以数据仓库建设为线索,是数据仓库建设的重要工作之一 示例 数据中心建设目标 和架构 41 国网数据中心整体建设目标体系 电网安全管理能力 营销管理与服务能力 财务绩效分析能力 资源计划决策能力 数据应用 安全生产分析 财务绩效分析 营销分析 电网运行分析 设备生产分析 人力资源分析 计划统计 物资管理分析 电力市场分析 项目建设分析 42 综合决策 综合国网业务指标 建立数学模型,综合预测 完善关键绩效指标考核等应用 制定策略,指导业务实践 综合决策 套装软件内紧密耦合的专业分析 通用平台专业分析 跨平台的专业分析 ... 专业分析 绩效 预测 指标 挖掘 … 人力 生产 财务 套装软件业务基础数据整合 在套装软件内部完成 非套装软件业务在通用平台 整合完成 交换数据 基础数据整合 … 层次 :决策层 内容 : 指标衡量 层次 :管理 层 内容 : 专业分析 综合分析 … 物质 项目 设备 计划 国际合作 营销 招投标 营销分析 生产分析 人力分析 财务分析 物质分析 项目分析 设备分析 计划分析 数据中心整体建设目标体系在应用架构上的分解 43 基于 通用平台实现 套装软件 营销系统 生产系统 …… EDW-ODS 企业级数据仓库 通用平台前端 集市 集市 集市 集市 前端 集市层 数据仓库层 ODS 源系统 DW 中应用国网统一的数据模型和数据标准; 整合后的数据通过开放平台前端进行分析和展现; 风险 可 扩展性较好,适应未来应用需求的增长 有利于企业级数据模型的建立 有利于系统间共享信息的统一信息视图建立 44 数据中心数据架构 数据访问功能和方式 46 主要数据访问功能 名称 功能 描述 报表 实现预定义和用户自定义报表功能 通过报表工具实现预定义报表的自动生成和分发,并能够灵活的实现用户自定义报表的功能。 即席查询 进行准实时的业务查询 通常即席查询的功能会涉及准实时的业务信息,可以由 ODS 区提供此类应用,通过即席查询工具,不需要非常专业的 SQL 知识即可完成业务信息的即席查看。 联机分析 利用 OLAP 分析手段实现多维度的交叉分析 利用 OLAP 分析工具,配合设计良好的 OLAP 数据模型,可以完成业务人员对业务的分析需求。联机分析的手段包括各种图形和表格的表现,以及在其上进行的多维度的交叉分析,帮助用户快速定位和解决问题。 知识发现 利用数据挖掘等知识发现技术实现特定的分析专题 用户获取有用信息的能力体现了数据仓库系统的价值,通过数据挖掘等高级统计分析技术,企业能够将数据源中有价值的信息(知识)识别出来并建立模型,同时通过自动化或半自动化的工具进行分析。知识发现应用根据专题的不同可采用自顶向下或自底向上的方法,分别适应假设验证和知识发现型的应用。 47 数据访问类型、数据访问复杂度和用户层次三者间的关系 复杂分析 数据访问复杂度 简单分析 初级用户 有经验的用户 报表 数据分析 查询 知识发现 48 数据访问方式 有限制的交互 灵活的交互 客户端通过浏览器访问数据 静态发布 灵活交互架构是能够提供最丰富功能的最新架构。除了与有限制交互相似的功能外,灵活交互架构能够生成包含嵌入式、可供交互、可执行内容的报表。这些可交互内容允许用户体验到接近于客户端/服务器模式工具开发的图形界面使用感觉 有限制的交互架构能够让用户访问实时数据。当用户点击链接来获取报表的时候,系统允许用户在一系列参数中选择自己需要的条件。这些HTML页面(可能是静态形式,也可能是互动形式)将被返回给Web服务器并展现给最终用户 静态发布是最直观的数据访问架构形式,用户可以通过点击相关链接得到预先生成的报表。这些报表以 HTML 文件格式存放在 Web 服务器内。静态发布的执行架构仅由 Web 服务器和浏览器两部分组成。报表通常是通过批量处理执行产生的 数据访问的实现方式是选择和评价数据访问工具的重要参考依据 , 目前市场上主流的数据访问实现方式分为两种: 客户端 -> 分析服务 -> 数据存储 客户端为 IE 流览器的数据访问 第二种数据访问方式因为更容易部署和更少的维护成本,被广泛的使用和形成行业标准 开发过程组织 50 网省数据仓库的演进方法是以数据仓库分析能力和数据整合能力的提高为主线索 , 提升数据管控能力 , 改进数据质量 Quick Win (速赢) 数据仓库建立及完善 数据仓库优化 领导决策能力的提高 数据质量的改进 数据管理能力的提升 建立领导查询系统 挑选重要的主题进行数据仓库建设 提供联机分析及综合报表 数据仓库基本建成 提供更全面的数据分析以及数据展现 可以对数据进行更深层次的挖掘 网省数据中心建设演进方法 51 国网数据仓库的总体实施策略是以降低风险为原则,通过试点建设积累经验,验证方法,从而形成国网成熟的统一的数据模型标准,数据管控方法和流程,数据仓库体系架构。然后再大面积推广。这样可以保证整个国网数据中心的建设在控、有序。 推广网省 试点网省 数据模型规划 , 提供基于业务数据主题的高层数据逻辑模型和细节数据物理模型 业务数据标准和代码指标准确的建立 设计数据仓库技术架构 制定数据标准管理及维护流程 制定数据质量管理策略和方法 数据按其敏感性、重要性建立一套完整的数据安全分级标准 试点的建设 宣贯推广 经验验证 执行督导 典型经验 数据模型标准 数据仓库技术架构 数据管理标准 业务数据标准 代码指标标准 采用试点先行,典型经验指导的策略实行全国网范围内的数据仓库建设 52 数据仓库开发的人员和组织 53 数据仓库开发的阶段、任务和流程 计划 分析 设计 开发 测试 部署 项目管理 培训及运行支持 复查期望目标 定义方案蓝图 评估现状能力 定义交付策略 评估风险 定义 ETL 功能、技术整合 设计开发执行运行环境 制定 ETL 、 BI 产品测试计划 制定 UAT 计划 开发 BI 前台展现组件 安装开发执行运行环境 部署 ETL 、 BI 组件测试计划 完成产品测试 完成 UAT 测试 评估部署就绪条件 完成数据转换 发布应用程序 完成操作就绪测试 完成性能测试 ETL 高层需求确认 T T T T T T ETL 开发流程 定义开发执行运行环境需求 定义报表详细规范 建立概念数据模型 定义终端用户访问技术需求 定义数据分析需求 性能测试计划 建立逻辑数据模型 建立物理数据模型 完成组件测试 在整个数据仓库开发过程中,非常关键的任务。需要设入较多的资源 54 计划阶段 计划阶段 复查期望目标 评估现状能力 定义方案蓝图 定义交付策略 回顾愿景及业务目标 定义方案蓝图 确认目标业务流程 定义交付策略 T T T T 评定当前业务流程 评定当前的 能力、 性能、风险 评定当前技术架构 评定当前应用程序 评定当前组织架构 评定元数据及数据管控 评定当前支撑能力 应用解决方案 技术解决方案 业务流程变更 解决方案 运维解决方案 定义开发策略 定义试点策略 定义测试策略 定义部署策略 定义元数据管理 定义数据管控策略 55 分析阶段 分析阶段 复查期望目标 定义数据分析需求 定义 ETL 高层需求 T T 建立概念数据模型 定义开发、执行、运行环境的具体需求 定义用户对数据访问的技术需求 制定 UAT 测试计划 制定产品测试计划 制定性能测试计划 评估风险 56 设计阶段 设计阶段 定义 ETL 功能技术整合方案高层需求 定义报表详细规范 T T 建立逻辑数据模型 制定技术架构及组装测试计划 设计开发、执行、运行环境的准备 57 开发阶段 开发阶段 ETL 开发流程 BI 前台组件开发 T T 建立物理数据模型 ETL 、报表组件测试计划 开发、执行、运行环境的准备 58 测试阶段 测试阶段 组件测试 产品测试 T T 性能测试 UAT 测试 确认组件测试周期 编写组件测试脚本 发布组件测试环境 更新测试源数据 执行组件测试,并将测试通报错误及时修复 确认产品测试周期 编写产品测试脚本 发布产品测试环境 执行产品测试,并将测试通报错误及时修复 确认性能测试周期 编写性能测试脚本 发布性能测试环境 执行性能测试,并将测试通报错误及时修复 59 部署阶段 部署阶段 评估部署就绪条件 完成数据转换 T T 完成部署就绪测试 发布应用 评估应用程序是否就绪评估技术架构及基础架构是否就绪 评估部署站点是否部署就绪 评估国家电网最终用户人员是否就绪并已培训完成 制定偶发性事件处理机制 列出部署就绪每一阶段检查点 准备数据转换就绪动作 准备转换所需正式数据;清洗数据;创建数据备份 执行数据转换动作 验证转换后的数据 执行部署测试 验证操作结果 错误修复;管理及服务支持能力就绪 确认操作就绪验证完成 通知部署、开发及上线实施团队 数据中心功能展示 财务杜邦 专业 分析 FI 业务管理模块 财务 ERP 业务管理模块总共有 7 个分析主题;应用到的分析查询共有 75 个; BW 分析模型 8 个;用到的源系统分为 2 类: ECC P800 和外部平面文件;数据源总共有 11 个: 财务管理 ERP 高级分析应用 ERP 业务运行指标 杜邦财务分析体系 地市公司对标指标 总账 应收 应付 固定资产 贷款 业务量统计 凭证错误率分析 预制凭证完成情况 财务开放记账期间查看 包含了 13 份报表, 25 个分析查询, 2 个数据源。 杜邦财务分析体系详细地为用户或决策者提供了陕西省电力公司本部、物资公司、信通公司及各地市公司的所有财务状况数据信息的综合性分析平台,用户通过它就可以对各公司的月度财务状况及年度财务总结都有一个全面的掌握 . 杜邦财务分析体系 — 模型结构图 其他专业分析 设备维护成本分析 电网发展指标 资产状况指标分析 财务分析 数据质量监控 数据质量监控 数据质量监控系统由数据监控看板、数据修正、数据质量分析及数据评测报告等组成。几个功能模块并非独立的,而是以综合查询分析平台为基础以数据修正为纽带紧密的结合起来通过层层推进并迭代的方式,不断促进数据中心的数据质量的提高,同时也帮助各个业务系统提交各自的数据质量。 数据中心 数据质量提高 数据监控板 发现数据错误 数据修正 手动执行 ETL 数据质量分析 分析业务系统数据质量原因及变化趋势 通过数据监控看板发现数据错误,针对错误联系业务系统运维人员或业务部门对业务数据进行纠正。 使用数据修正功能对“脏数据”进行处理,可以手动执行 ETL 程序重新抽取剔除错误数据。 每周根据数据监控看板的内容,按业务部门、业务系统、错误类型和质量变化趋势出具数据质量分析报告。 以促进数据中心应用为主线,在应用中动态地提高数据质量。 数据质量监控 数据中心 数据质量提高 数据监控板 发现数据错误 数据修正 手动执行 ETL 数据质量分析 分析业务系统数据质量原因及变化趋势 在 ETL 设计过程,需要针对每个流程设计错误流程并且定义错误类型。每个 ETL 流程遇到错误时写入容错库中。 数据质量监控 数据中心 数据质量提高 数据监控板 发现数据错误 数据修正 手动执行 ETL 数据质量分析 分析业务系统数据质量原因及变化趋势 数据修正使用使用 Informactica 提供的 WebService 接口,通过调用 WebService 可以在以 Web 的形式调用 ETL 程序对出错程序进行处理。 数据质量监控 数据中心 数据质量提高 数据监控板 发现数据错误 数据修正 手动执行 ETL 数据质量分析 分析业务系统数据质量原因及变化趋势 利用 Cognos 展现分析功能,对错误库中的数据按出错时间,出错类型,隶属业务部门,隶属业务系统等汇总,可以得到数据质量分析报告。该报告也可以使用 Cognos 的导出功能实现。 工作任务 工作量 数据抽取 从源系统到分析环境的数据抽取 结构复杂且封闭,直接抽取难度大,考虑增量模式抽取需要大量开发工作 数据整合 转换、更新规则 开发 不能通过简单配置方式得到有效数据整合,仍需大量客制开发 分析模版 分析模版开发 在通用平台上基于业务分析需求单独建立和维护分析模版 数据展现 同现有门户集成 Cognos 接入门户实现方案 单点登陆开发 通过 Cognos 单点登陆实现方式 运行维护 运维管控 需求变动、系统性能 维护牵涉面广,流程复杂,代价较高。 总评 ETL/ 分析模版等大量工作需要客制化开发,工作量大,且后期运维代价高 81 紧耦合专业分析建设业务驱动力 紧耦合技术路线已明确,紧耦合分析提上建设日程 项目 财务 物资 项目 - 物资分析举例 消耗量分析:按单位,项目性质,项目类型,项目阶段,物资类别,时间等维度,对物资数量,物资金额的计划值,实际使用值进行对比分析。 项目-财务分析举例 项目投资规模分析 项目资金结构分析 资金执行情况分析 项目资金来源分析 物资 - 财务分析举例 物资采购金额数量分析 套装软件内专业分析成熟度高 套装软件提供成熟分析模版 电网企业管理分析需求集中,实施成熟度高 分析耦合性要求多 实施路线成熟度高查看更多