一: greenplum 的使用
1.1 greenplum的概述:
Greenplum。该公司成立于2003年,2006年推出了首款产品,其主营业务关注在数据仓库和商业智能方面,Greenplum DW/BI软件可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构
当前使用的 OLTP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,
可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。
greenplum 的企业版本下载:
https://network.pivotal.io/products/vmware-tanzu-greenplum
1.2 mpp系统
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。
节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,
MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,
当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,
那MPP系统可以充分发挥资源的优势,达到高效率。
1.3 greenplum的体系架构

Greenplum 由三部分组成:Master Host、Segment、Interconnect。
Master Host:
Master Host 节点是访问系统的入口,数据库侦听进程 (postgres),处理所有用户连接,建立查询计划,协调工作处理过程,管理工具,系统目录表和元数据(数据字典)并不存放任何用户数据。
segment节点:
每段(Segment)存放一部分用户数据,一个系统可以有多段,用户不能直接存取访问,所有对段的访问都经过 Master,数据库监听进程(postgres)监听来自 Master 的连接
Interconnect
Greenplum 数据库之间的连接层,进程间协调和管理,基于千兆以太网架构,属于系统内部私网配置,并支持两种协议:TCP or UDP
1.4 greenplum的表的分布策略

在Greenplum 5中,有2种分布策略:
哈希分布,随机分布
在Greenplum 6中,添加了另一个策略:
哈希分布,随机分布,复制分布
数据表的单个行会被分配到一个或多个segment上.
二: greenplum 的安装:
2.1 greenplum 的下载
greenplum开源版本
其官方手册 https://greenplum.org/documentation/
其下载介质地址 https://github.com/greenplum-db/gpdb/releases
greenplum商业版本(注:下载介质必须要付费,官方手册可以在线或离线看)
其官方手册 http://gpdb.docs.pivotal.io/570/main/index.html
其下载介质地址 https://network.pivotal.io/products/pivotal-gpdb/
本次安装收费版本:

2.2 安装greenplum系统环境准备:
- 系统:
CentOS7.9x64
-
部署环境:
master 一台
standby 一台
segment 三台 -
系统主机名配置:
cat /etc/hosts
192.168.100.11 node01.flyfish.com
192.168.100.12 node02.flyfish.com
192.168.100.13 node03.flyfish.com
192.168.100.14 node04.flyfish.com
192.168.100.15 node05.flyfish.com
192.168.100.16 node06.flyfish.com
192.168.100.17 node07.flyfish.com
192.168.100.18 node08.flyfish.com
192.168.100.19 node09.flyfish.com
本次安装前五台机器:
部署greenplum 建议生产使用实体机器,greenplum 的最小环境为,master 一台standby 一台 segment 三台
- 系统环境初始化:(所有主机)
vim /etc/sysctl.conf
vm.swappiness = 0
kernel.sysrq = 1
net.ipv4.neigh.default.gc_stale_time = 120
see details in https://help.aliyun.com/knowledge_detail/39428.html
net.ipv4.conf.all.rp_filter = 0
net.ipv4.conf.default.rp_filter = 0
net.ipv4.conf.default.arp_announce = 2
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_announce = 2
see details in https://help.aliyun.com/knowledge_detail/41334.html
net.ipv4.tcp_max_tw_buckets = 5000
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_syn_backlog = 1024
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_slow_start_after_idle = 0

本文详细介绍了Greenplum数据库的原理、架构和特性,包括其MPP架构、分布策略以及企业版下载链接。此外,还提供了Greenplum在CentOS7上的安装步骤,包括系统环境准备、依赖包安装、环境变量设置和集群初始化。文章最后列举了一些常用管理命令和客户端应用,帮助读者理解和使用Greenplum数据库。

4302

被折叠的 条评论
为什么被折叠?



