封面
版权信息
内容简介
推荐序
前言
本书内容
读者对象
源码下载
致谢
第1章 数据仓库简介
1.1 什么是数据仓库
1.1.1 数据仓库的定义
1.1.2 建立数据仓库的原因
1.2 操作型系统与分析型系统
1.2.1 操作型系统
1.2.2 分析型系统
1.2.3 操作型系统和分析型系统的对比
1.3 抽取—转换—装载
1.3.1 数据抽取
1.3.2 数据转换
1.3.3 数据装载
1.3.4 开发ETL系统的方法
1.4 数据仓库架构
1.4.1 基本架构
1.4.2 主要数据仓库架构
1.4.3 操作型数据存储
1.5 实时数据仓库
1.5.1 流式处理
1.5.2 实时计算
1.5.3 实时数据仓库解决方案
1.6 小结
第2章 数据仓库设计基础
2.1 关系数据模型
2.1.1 关系数据模型中的结构
2.1.2 关系完整性
2.1.3 关系数据库语言
2.1.4 规范化
2.1.5 关系数据模型与数据仓库
2.2 维度数据模型
2.2.1 维度数据模型建模过程
2.2.2 维度规范化
2.2.3 维度数据模型的特点
2.2.4 星型模式
2.2.5 雪花模式
2.3 Data Vault模型
2.3.1 Data Vault模型简介
2.3.2 Data Vault模型的组成部分
2.3.3 Data Vault模型的特点
2.3.4 Data Vault模型的构建
2.3.5 Data Vault模型实例
2.4 数据集市
1.数据集市的概念
2.数据集市与数据仓库的区别
3.数据集市设计
2.5 数据仓库实施步骤
2.6 小结
第3章 Greenplum与数据仓库
3.1 Greenplum简介
3.1.1 历史与现状
3.1.2 MPP——一切皆并行
3.2 Greenplum系统架构
3.2.1 Greenplum与PostgreSQL
3.2.2 Master
3.2.3 Segment
3.2.4 Interconnect
3.3 Greenplum功能特性
3.3.1 存储模式
3.3.2 事务与并发控制
3.3.3 并行查询
3.3.4 并行数据装载
3.3.5 冗余与故障转移
3.3.6 数据库统计
3.4 为什么选择Greenplum
3.4.1 Greenplum还是SQL-on-Hadoop
3.4.2 适合DBA的解决方案
3.4.3 Greenplum的局限
3.5 小结
第4章 Greenplum安装部署
4.1 平台需求
4.1.1 操作系统
4.1.2 硬件和网络
4.1.3 文件系统
4.2 容量评估
4.2.1 可用磁盘空间
4.2.2 用户数据容量
4.2.3 元数据和日志空间
4.2.4 RAID划分最佳实践
4.3 操作系统配置
4.3.1 安装操作系统
4.3.2 禁用SELinux和防火墙
4.3.3 操作系统推荐配置
4.3.4 时钟同步
4.3.5 创建Greenplum管理员账号
4.3.6 安装JDK(可选)
4.4 安装Greenplum软件
4.4.1 安装软件包
4.4.2 配置免密SSH
4.4.3 确认软件安装
4.5 初始化Greenplum数据库系统
4.5.1 创建数据存储区
4.5.2 验证系统
4.5.3 初始化数据库
4.5.4 设置Greenplum环境变量
4.6 允许客户端连接
4.7 修改Greenplum配置参数
4.8 后续步骤
4.8.1 创建临时表空间
4.8.2 创建数据库用户
4.9 Greenplum升级
4.9.1 升级条件
4.9.2 升级步骤
4.10 小结
第5章 实时数据同步
5.1 数据抽取方式
5.1.1 基于源数据的CDC
5.1.2 基于触发器的CDC
5.1.3 基于快照的CDC
5.1.4 基于日志的CDC
5.2 MySQL数据复制
5.2.1 复制的用途
5.2.2 二进制日志binlog
5.2.3 复制的步骤
5.3 使用Kafka
5.3.1 Kafka基本概念
5.3.2 Kafka消费者与分区
5.4 选择主题分区数
5.4.1 使用单分区
5.4.2 如何选定分区数量
5.5 Maxwell + Kafka + Bireme
5.5.1 总体架构
5.5.2 Maxwell安装配置
5.5.3 Bireme安装配置
5.5.4 如何保证数据的顺序消费
5.5.5 实时CDC
5.6 Canal Server + Kafka + Canal ClientAdapter
5.6.1 总体架构
5.6.2 Canal Server安装配置
5.6.3 Canal ClientAdapter安装配置
5.6.4 配置HA模式
5.6.5 实时CDC
5.6.6 消费延迟监控
5.7 小结
第6章 实时数据装载
6.1 建立数据仓库示例模型
6.1.1 业务场景
6.1.2 建立数据库表
6.1.3 生成日期维度数据
6.2 初始装载
6.2.1 数据源映射
6.2.2 确定SCD处理方法
6.2.3 实现代理键
6.2.4 执行初始装载
6.3 实时装载
6.3.1 识别数据源与装载类型
6.3.2 配置增量数据同步
6.3.3 在Greenplum中创建规则
6.3.4 启动实时装载
6.3.5 测试
6.4 动态分区滚动
6.5 小结
第7章 维度表技术
7.1 增加列
7.2 维度子集
7.3 角色扮演维度
7.4 层次维度
7.4.1 固定深度的层次
7.4.2 多路径的层次
7.4.3 参差不齐的层次
7.5 退化维度
7.6 杂项维度
7.7 维度合并
7.8 分段维度
7.9 小结
第8章 事实表技术
8.1 事实表概述
8.2 周期快照
8.3 累积快照
8.4 无事实的事实表
8.5 迟到的事实
8.6 累积度量
8.7 小结
第9章 Greenplum运维与监控
9.1 权限与角色管理
9.1.1 Greenplum中的角色与权限
9.1.2 管理角色及其成员
9.1.3 管理对象权限
9.1.4 口令加密
9.2 数据导入导出
9.2.1 file://协议及其外部表
9.2.2 gpfdist及其外部表
9.2.3 基于Web的外部表
9.2.4 外部表错误处理
9.2.5 使用gpload导入数据
9.2.6 使用COPY互拷数据
9.2.7 导出数据
9.2.8 格式化数据文件
9.3 性能优化
9.3.1 常用优化手段
9.3.2 控制溢出文件
9.3.3 查询剖析
9.4 例行监控
9.4.1 检查系统状态
9.4.2 检查磁盘空间使用
9.4.3 检查数据分布倾斜
9.4.4 查看数据库对象的元数据信息
9.4.5 查看会话的内存使用信息
9.4.6 查看工作文件使用信息
9.4.7 查看服务器日志文件
9.5 例行维护
9.5.1 定期VACUUM
9.5.2 定期维护系统目录
9.5.3 加强的系统目录维护
9.5.4 为查询优化执行VACUUM与ANALYZE
9.5.5 自动收集统计信息
9.5.6 重建索引
9.5.7 管理数据库日志文件
9.6 推荐的监控与维护任务
9.6.1 数据库实例状态监控
9.6.2 硬件和操作系统监控
9.6.3 系统目录表监控
9.6.4 数据库维护
9.6.5 补丁与升级
9.7 小结
第10章 集成机器学习库MADlib
10.1 MADlib的基本概念
10.1.1 MADlib是什么
10.1.2 MADlib的设计思想
10.1.3 MADlib的工作原理
10.1.4 MADlib的执行流程
10.1.5 MADlib的基础架构
10.2 MADlib的功能
10.2.1 MADlib支持的模型类型
10.2.2 MADlib主要的功能模块
10.3 MADlib的安装与卸载
10.3.1 确定安装平台
10.3.2 安装MADlib
10.3.3 卸载MADlib
10.4 MADlib示例——使用矩阵分解实现用户推荐
10.4.1 低秩矩阵分解
10.4.2 奇异值分解
10.5 模型评估
10.5.1 交叉验证
10.5.2 MADlib的交叉验证相关函数
10.5.3 交叉验证示例
10.6 小结
更新时间:2023-09-08 19:52:16