离线数仓项目介绍(一)项目介绍1到目前为止电商已经经历了初创阶段、发展阶段、成熟阶段以及新零售阶段,目前电商最主要有线上、线下以及新物流的模式;基于我们公司的调查,目前生鲜行业有着高频、刚需、即时性的特点、以及目前该行业仍然处于线下销售量要远大于线上销售量的现状,人们对于线上模式仍然抱有一种怀疑的目光,还是更愿意在线下购买该类商品;基于这样的一个现状,我们研发了黑马甄选项目,致力于解决当下的问题;我们公司成立于2016年,至今已有将近7年的历史了,公司目前的业务有门店、批发、团购等,这个项目呢主要是做生鲜,目前随着公司的数据规模越来越大,于是衍生出了黑马甄选这样的一个项目,想要通过大数据的方式对公司的整体运营情况有一个总体上的把握,为公司领导提供一些决策支持为公司发展添砖加瓦,那么下面我来具体介绍一下我们这个项目。
项目背景123456我们这个项目呢,目前主要有4个总体需求:1、销售需求2、会员需求3、商城相关的需求4、供应链相关的需求对于销售需求,主要是对于销售额、订单、成本、利润等做一些统计分析对与会员需求,主要是会员的注册、消费、余额等做一些分析对于商城相关的需求,主要是实时的 ...
Hadoop原理框架
广义:Hadoop生态圈
狭义:Hadoop开源框架
hdfs:解决海量数据存储
mapreduce:解决海量数据的计算
yarn:解决资源任务调度
分布式:多台服务器完成不同的事情
集群:多台计算机完成相同的事情
HDFS组件
分布式存储的原理
副本机制
1234# 默认3副本机制1、源文件存储在第一个DataNode上2、第一个副本存储再和源文件不同机柜的服务器上(机柜就近原则)3、第二个副本存储在和第一副本同一机柜的不同服务器上
心跳机制
123DataNode每3秒向NameNode汇报一次自己的情况若连续10次没有汇报,则NameNode会认为该DataNode可能已经宕机NameNode会每5分钟发送一次确认消息,连续两次没有收到回复,就认定该DataNode宕机
负载均衡机制
1负载均衡保证给各个节点的任务分配的均匀一点
管理数据资源
分块管理
默认把数据切分为128M一块,默认3副本
可以再hdfs-site.xml中修改默认配置
edits和fsimage
123451. edits:存储的是操作日志、文件信息、块 ...
Hadoop集群配置部署Hadoop框架配置
上传hadoop压缩包到node1
解压到 /export/servers
创建软连接
123cp -r hadoop-3.3.6 /export/servercd /export/serverln -s /export/seervers/hadoop-3.3.x
进入hadoop安装包内
1cd /hadoop
Hadoop文件结构
12345678bin:存放Hadoop的各类程序(命令)etc:存放Hadoop的配置文件include:C语言的一些头文件lib:存放Linux的动态链接库(.so文件)libexec:存放Hadoop系统的脚本文件(.sh和.cmd)licenses-binary:存放许可证文件sbin:管理员程序(super bin)share:存放二进制编码(Java jar包)
配置HDFS集群需要修改的文件(hadoop/etc/hadoop文件中)
workers:配置从节点(DataNode)
123hadoop node1 ...
Hadoop基础
什么是大数据?
为了处理海量数据所产生的技术
通过分布式技术处理数据
应用
数据挖掘
分布式
将多台服务器集中,每台服务器做不同的事情
分布式系统:一个硬件或软件,其组件会分布在不同的计算机上,并可以通过网络进行通信和协调
常用技术
分布式数据存储:HDFS
分布式计算:MapReduce
集群
多台不同服务器部署相同的应用或服务模块
负载均衡,提供服务
资源调度:YARN
去中心化模式:没有主服务器,基于特定规则同步协调
中心化模式:有一个主服务器,都由主服务器统一调度分配
Hadoop框架
核心工作
数据存储 1. HDFS:分布式存储 2. HBase:NoSQL(key-value) 3. Kudu 4. 云平台存储
数据计算
MapReduce
Hive
Spark
Flink
数据传输
Sqoop(ETL工具)
Flume(流式数据采集)
Kafka(分布式消息系统)
Pulsar(分布式消息系统)
入门
Hadoop优势
扩容能力
成本低
效率高
可靠性
HDFS
N ...
Hive基础
什么是Hive
由fecebook开源,基于Hadoop的==离线数仓工具==
可用于结构化数据文件==映射==为一张表,提供类SQL查询
将SQL转换为MapReduce程序
用途
离线数仓(SQL–MapReduce)
SQL–>MapReduce–>运算结果–>客户端
优缺点
优点
采用类SQL
避免直接写MapReduce
缺点
延迟高
对小数据处理没有优势,因为1
数据库和数据仓库的区别
datagrip连接hive
1
数仓的分层架构
1
设计丐版Hive
需求
用户只需要写SQL
自动将SQL转化为MapReduce
能处理位于HDFS上的结构化数据
需求分析
SQL–>MapReduce
12341、数据文件在哪2、用什么符号作为列的分隔符3、那些列可以作为city使用4、city列是什么类型数据
存储在关系型数据库里面(MySQL)
构建分布式MySQL
元数据管理功能:记录各类元 ...
