基于某生鲜APP业务的数据仓库搭建过程(一)
大客户分析:
购物车分析:
售后分析:
供应链分析:
微仓分析:
2.3 抽取公共维度,构建数据集市 确定细分的分析主题后,需要对上述所有的主题进行切片,抽取公共维度。公共维度的抽取非常重要,如果没有维度的切片,那么所有分析数据只能从业务源数据中抽取,这样会极大降低数据的处理速度,甚至会导致计算系统的崩溃。这一步也为接下来的数据建模提供基础。 以用户分析为例,与用户有关的维度有下单时间、下单日期、所在地区、购买的产品、用户订单、支付方式、折扣方式、年龄、购买频率、售后等等。 以此类推,逐个分析每一个主题,然后抽取公共维度,构建总线矩阵表,如下所示: 2.4 根据常用建模方法,设计维度表和事实表 一般来说,数据仓库由维度表和事实表2种表组成,保存度量值的详细值或事实的表称为“事实表”;用来描述事物维度和属性的表称为维度表。一般来说,一个事实数据表都要和一个或多个维度表相关联。 在这一步骤中,我们需要把OLTP模型中的数据转化为关系模型。建模方法常用的有星形模型、雪花模型。 以下订单事实表为例,基于星型模型将OLTP中的数据转化为关系模型,定义层次结构,在这一步基本完成物理数据库的设计。 如下图所示: 3. 配置数据源OLTP中的数据类型非常多,来源也很多。既有结构化数据,也有半结构化、非结构化数据;既有mysql、oracle等关系型数据数据,也有日志文件、ngix服务器、埋点数据,甚至还有DOC文件数据。 在这一步就需要梳理所有数据来源,包括来源总数、数据类型、存储方式、数据量级、更新频度、增量量级等等。 另外需要注意到,结构化数据可以直接通过ETL方式进行提取;结构化和半结构化数据则需要通过一定的算法处理后再入库。 未完待续……
本文素材来自互联网 (编辑:站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 通用旗下自动驾驶子公司Cruise收购毫米波雷达公司Astyx
- [多图]LG透露了其即将推出的手机名称:LG Velvet
- 国家邮政局:预计5月快递业务量同比增速超过30%
- Google Chrome重新设计了“隐私和安全设置”页面
- 工信部召开媒体通气会 介绍电信大数据分析、支撑服务疫情防
- 深信服SAVE安全智能检测引擎加入Google VirusTotal平台,实
- Mozilla Firefox 72 Nightly版本开始在Windows中添加自适应
- 额温枪“一枪难求”微商跟进,市场监管严查借疫抬价及诈骗
- 继iPhone之后 Apple Card免息分期服务推广至iPad等其他产品
- 三星Odyssey G9显示器上市 49寸/5K/240Hz/1000R超高曲率