企业数字化转型建设方案:企业大数据中心数字化系统平台技术方案

时间:2023-10-05 15:03:03编辑:科技君

原文《企业数字化转型建设方案:企业大数据中心数字化系统平台建设技术方案》为WORD格式。来源网络,旨在交流学习,如有侵权,联系速删,

图、数据中心构建思路图

按照对数据中心的理解,完整的数据中心应该具备IT基础设施(主机、存储、网络)、企业级ETL平台、数据存储中心、数据共享服务、应用层、统一门户、数据管控平台。

图、功能框架

系统功能框架分为企业级ETL平台、存储与计算中心、服务层、应用层、统一门户、统一平台管控。

企业级ETL平台:

负责企业数据中心数据采集、加工、汇总、分发的过程,完成企业级数据标准化、集中化,实现数据脉络化、关系化,实现统一的数据处理加工,包括:非实时数据处理和实时数据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数据挖掘等能力。

存储与计算中心:

建立统一的数据中心数据模型,以及统一的数据存储与计算,具体提供关系数据库、分布式非关系数据库、分布式文件、分布式计算,实现统一的数据存储与计算。

数据共享服务:

通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性;基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。

应用层:

应用层的应用使用服务层提供的各种数据服务。本期应用层包括:经分应用、流量运营、ESOP应用、VGOP应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞察、渠道运营、自助分析、客户标签库、实时营销、LTE互联网管控策略。

统一门户:

提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、应用访问数据信息等功能,同时提供数据中心被应用访问的频次,被应用访问的数据范围,提供数据资产的评估,为应用上下线和数据开放提供依据。

统一平台管控:

面向开发人员、运维人员实现数据、应用、资源的统一管控,包括:数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。

图、技术架构

系统技术架构分为数据采集、计算存储服务、数据共享服务、平台管控。采用Hadoop云技术,可以满足计算能力线性扩展、多租户能力、数据汇总能力;批处理场景采取Hadoop的Map/Reduce、Hive或者Spark来完成;流式数据处理,采用Esper计算引擎实现。

数据采集:

采用Flume计算框架,实现文件和消息采集与解析;采用流式爬虫、中文分词、图片识别技术,实现互联网网页信息实时采集;采用FTP文件方式实现对数据文件的采集;采用Socket消息方式实现对消息数据的采集;采用sqoop方式实现将数据库数据装载到HDFS文件系统。

计算存储服务:

采用Hadoop中HDFS文件系统提供统一的大数据数据存储,满足全量数据留存;基于Yarn提供跨平台的资源管理,满足资源的统一调度与管理;采用Hadoop实现非实时ETL,实现海量数据的批处理,主要处理ODS层->DWD层->DW层->ST层的数据处理;视业务数据情况部分DW层->ST层的数据处理采用Spark计算框架实现;采用Esper和rabbitmq支撑流数据处理与复杂事件处理;利旧DB2提供ST层数据的存储与计算,支持高并发的指标级数据共享。

数据共享:

数据开放共享采用基于HTTP协议REST风格的OpenAPI完成同步处理与基于消息队列(MQ)完成异步处理,实现类SOA面向服务的架构体系。支持OAuth提供一个安全的、开放而又简易的授权协议。数据共享服务部署在集群环境中以应对高并发的访问请求,并实现集群的负载均衡。

统一平台管控:

采用Java EE技术,通过MVC模式(Model View Controller,是模型-视图-控制器)把业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。

Mc信令(实时)数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令的实时处理。

除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统,实现全量数据留存;由Hive承担主库的职能,实现海量数据的批处理,承载ODS->DWD->DW->ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。

对外数据服务可以由不同种类的API来完成:

针对诸如客户统一视图、客户标签库的数据探索查询服务:将数据加载到Spark的RDD中,通过API将数据共享出去;针对诸如客户标签信息查询、客户详单查询类的数据查询服务(特点是通过一个Key来查询数据):将数据加载到Hbase中,通过API将数据共享出去;针对诸如指标数据查询、KPI数据查询服务(特点是高并发、多维度的数据查询):将数据加载到DB2数据库(利旧)中,通过API将数据共享出去;针对多租户的数据共享服务,详见章节;

根据数据中心的建设需求,企业级的ETL平台实现统一的数据采集、转换、加载、处理以及统一调度、管控等功能。这里的ETL指的是广义的ETL,具备以下的特点:

统一数据获取接入,支持B域数据、M域数据、O域数据或其他外部数据统一接入数据中心平台。支持结构化和非结构化数据采集、加工;对非结构化数据要实现从非结构化到结构化的处理过程。支持数据采集、转换、加载等关键 ,.数据处理过程,实现企业数据的标准。从周期上,支持批量的数据采集,实时的数据采集满足数据中心数据加工,处理以及对外提供数据分发、同步支持全过程的数据稽核。包括事前、事中、事后的稽核方式。以及灵活的稽核规则管理,算法管理全过程的可视化开发配置管理。通过可视化的开发配置,测试和部署上线。全过程元数据管理。重点要实现事前的元数据管理。管理的内容包括:支持数据模型、数据流程、转换规则、数据关系和转换映射规则。

企业级的ETL平台产品DACP可以很好支持上述的关键功能特点

Mc信令(实时)数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令的实时处理。

除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统,实现全量数据留存;由Hive承担主库的职能,实现海量数据的批处理,承载ODS->DWD->DW->ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。

通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性。基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。对于详单级数据,支持通过文件或授权的方式共享给周边系统。通过统一的技术平台框架,制定企业数据标准体系规范,基础数据采集处理,加工汇总,可以引入多家厂商或多租户进行标准化开发。

要满足建设目标的要求,数据服务开放的整个功能框架如下:

采用多租户的思路,将数据能力和数据平台数据处理能力按需、可控的进行开放,在保障数据安全性、数据可控性的前提下,通过标准化封装的数据操作,可视化开发工具开放给业务运营部门,由其自行进行数据操作开发。

使用企业级数据中心提供统一开发平台来实现多租户数据开发,其功能结构如下图:

系统包括两部分:开发管控和技术平台。通过这两部分互相配合实现系统开发能力的开放。

这种模式下需要解决的关键问题包括如下:如何进行资源控制,数据权限管理,跨系统之间的数据交互,自动调度运行,元数据管理。

应用层的所有业务应用具备与底层数据松耦合特性,通过接口层提供的各种数据接口,向业务人员或第三方厂商提供开放API服务。根据不同的应用场景,通过对相应的API进行选择和组合,从而快速生成所需要的业务应用,以满足对应用的快速开发、部署、上线的能力。

对于应用的开发可通过两种方式进行实现:

数据中心平台内应用开发:通过数据中心提供的应用开发平台直接进行应用开发,开发平台提供高效的可视化开发界面,包括对各类API可以追根溯源,展现详细API元数据信息等。同时对应用设计、应用开发、应用测试、应用上线、应用下线进行全流程、全生命周期的开发管控。此类开发场景主要适用于不具备硬件资源的用户(如业务部门开发人员)进行应用开发。数据中心平台外应用开发:通过Http协议数据服务接口,直接调用数据中心服务层中的各类API服务,通过开发编写相应的计算过程形成对应的业务应用。此类开发场景主要适用于具备硬件资源(如第三方厂商)的用户进行应用开发。

企业数据中心统一门户的建设是为了降低系统使用人员访问数据中心的难度,提高系统的易用性,并且实现数据中心的资源有机整合和统筹管理。

数据开放服务门户:对于数据开放服务提供开发者门户,含有数据服务授权申请、开发者帮助文档、服务注册、创建、注销等。管控平台门户:对整个数据中心管控平台使用者门户,系统管理、运维调度、质量监控等。应用使用门户:对于应用使用者的门户,支持多租户应用、第三方应用的集成统一呈现。

统一门户功能框架如下图所示

门户功能框架包括门户接入、门户功能两部分;通过功能适配到角色工作台形成不同的角色视图。

门户接入:主要负责企业数据中心用户访问渠道的接入管理;接入应用的日志管理、负载均衡与访问授权。门户功能:包括角色工作台、认证管理、权限管理、用户管理、流程审批、数据开发、应用开发、数据授权、运维监控、多租户管理等界面。

元数据管理是需要将各系统的信息、设计工具信息、生产平台信息,进行收集管理,统一管理。提供一个视图,以帮助使用人员了解系统的数据分布、数据关系、业务规则、指标口径等。元数据包括:系统类元数据、技术类元数、管理类元数据。

总体功能框架图

针对数据中心的要求,元数据管理需要具备的关键的特性如下:

要求提供标准化的应用开发工具,满足在不同平台上的开发需求100%的ETL开发、数据模型开发、应用开发能基于开发工具实现95%以上的元数据能自动采集、解析与管理,元数据的范围包括但不局限于数据结构、数据词典、字段维度、程序映射逻辑、数据生命周期等多租户的统一元数据管理

提供统一的应用开发工具,完成高效应用的开发,并可以自动完成应用元数据的采集。提供诸如数据展示包括报表工具,仪表盘分析等工具如

支持常见的各种报表样式支持常见各种分析图,同时支持图表组合分析支持各种数据源方式

支持oracle,db2,mysql等常见的关系型数据库

支持gp,gbase等mpp数据库

支持hdfs,hbase等大数据平台提供数据

支持webservice获取数据

采用元数据驱动(MDA)设计理念,去规划元数据对象的创建、运行、评估、维护各环节节。屏蔽大数据平台差异性,统一模型设计、统一程序开发,将元数据融入到开发各个环节,利于管理。

数据模型设计

支持IDE数据模型设计,同时支持模型设计工具power design、Erwin批量导入功能。

提供数据周期、数据表级字段级铭感设置、字段口径定义。

设计程序输入表和输出表的元数据信息。

程序开发

根据设计的内容转换成开发内容。开发人员就可以在此基础上进行开发。

提供各个接入平台统一封装函数,降低开发难度

数据质量控制

1.常规检查。包括及时性,运行状态,运行时长,处理记录数等进行常规检查。

2.对程序日志进行稽核。包括单步的处理时长,记录数的波动等

3.对程序的目标表启动检查。检查目标的统计指标值,关键字段维度、层次间数据的一致性进行检查

提供程序界面测试功能

对开发内容进行测试和调优,检查质量规范,性能,质量是否满足期望

发布应用到正式运行环境

元数据收集存储:

程序的基本信息。包括程序的名称,中文名称,备注,周期,层次,主题,创建人,开发人员程序的处理步骤信息。包括程序步骤编号,调用函数,执行脚本程序输入输出关系。输入模型,输出模型

程序的字段映射规则。输入模型到输出模型的转换规则

上一篇:SEO新手到高手:谷歌SEO优化攻略

下一篇:什么是互联网?