封面
版权信息
前言
第1章 大数据产业
1.1 大数据产业现状
1.2 对大数据产业的理解
1.3 大数据人才
1.4 小结
第2章 步入数据之门
2.1 什么是数据
2.2 什么是信息
2.3 什么是算法
2.4 统计、概率和数据挖掘
2.5 什么是商业智能
2.6 小结
第3章 排列组合与古典概型
3.1 排列组合的概念
3.2 排列组合的应用示例
3.3 小结
第4章 统计与分布
4.1 加和值、平均值和标准差
4.2 加权均值
4.3 众数、中位数
4.4 欧氏距离
4.5 曼哈顿距离
4.6 同比和环比
4.7 抽样
4.8 高斯分布
4.9 泊松分布
4.10 伯努利分布
4.11 小结
第5章 指标
5.1 什么是指标
5.2 指标化运营
5.3 小结
第6章 信息论
6.1 信息的定义
6.2 信息量
6.3 香农公式
6.4 熵
6.5 小结
第7章 多维向量空间
7.1 向量和维度
7.2 矩阵和矩阵计算
7.3 数据立方体
7.4 上卷和下钻
7.5 小结
第8章 回归
8.1 线性回归
8.2 拟合
8.3 残差分析
8.4 过拟合
8.5 欠拟合
8.6 曲线拟合转化为线性拟合
8.7 小结
第9章 聚类
9.1 K-Means算法
9.2 有趣模式
9.3 孤立点
9.4 层次聚类
9.5 密度聚类
9.6 聚类评估
9.7 小结
第10章 分类
10.1 朴素贝叶斯
10.2 决策树归纳
10.3 随机森林
10.4 隐马尔可夫模型
10.5 支持向量机SVM
10.6 遗传算法
10.7 小结
第11章 关联分析
11.1 频繁模式和Apriori算法
11.2 关联分析与相关性分析
11.3 稀有模式和负模式
11.4 小结
第12章 用户画像
12.1 标签
12.2 画像的方法
12.3 利用用户画像
12.4 小结
第13章 推荐算法
13.1 推荐思路
13.2 User-based CF
13.3 Item-based CF
13.4 优化问题
13.5 小结
第14章 文本挖掘
14.1 文本挖掘的领域
14.2 文本分类
14.3 小结
第15章 人工神经网络
15.1 人的神经网络
15.2 FANN库简介
15.3 常见的神经网络
15.4 BP神经网络
15.5 玻尔兹曼机
15.6 卷积神经网络
15.7 深度学习
15.8 小结
第16章 大数据框架简介
16.1 著名的大数据框架
16.2 Hadoop框架
16.3 Spark框架
16.4 分布式列存储框架
16.5 PrestoDB——神奇的CLI
16.6 小结
第17章 系统架构和调优
17.1 速度——资源的配置
17.2 稳定——资源的可用
17.3 小结
第18章 数据解读与数据的价值
18.1 运营指标
18.2 AB测试
18.3 数据可视化
18.4 多维度——大数据的灵魂
18.5 数据变现的场景
18.6 小结
附录A VMware Workstation的安装
附录B CentOS虚拟机的安装方法
附录C Python语言简介
附录D Scikit-learn库简介
附录E FANN for Python安装
附录F 群众眼中的大数据
写作花絮
参考文献
更新时间:2019-01-03 16:37:14