| 价格 | ¥79.00 |
| 发货 | 广东东莞市 |
| 数量 | -+ |
| 库存 | 100本 |
大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》作者就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。另外,《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
《重构大数据统计》适合对大数据分析感兴趣的读者阅读,《重构大数据统计》前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容进行参考。
第1 章 基本概念 ............................................................. 1
1.1 数据类型 ......................................................................................... 1
1.2 总体和样本 ........................................................................ 2
1.3 参数和统计量 ................................................................................... 2
1.4 分布式计算 ...................................................................... 3
第2 章 单变量基本统计量 .......................................................... 5
2.1 数量统计量 ........................................................................... 5
2.1.1 样本方差为何除以n-1 ......................................................................................... 7
2.1.2 数据分布与标准差的关系 ................................................................................. 10
2.1.3 新的计算公式 ..................................................................................................... 11
2.1.4 代码实现 ............................................................................................................. 16
2.2 频数统计量 ..................................................................... 18
2.3 次序统计量 ......................................................................... 23
2.3.1 通过排序方法计算次序统计量 ......................................................................... 25
2.3.2 不需排序就可计算的次序统计量 ..................................................................... 29
2.3.3 基于频数信息计算次序统计量 ......................................................................... 31
2.3.4 中位数、众数和均值的关系 ............................................................................. 34
第3 章 单变量数据的分布 ................................................ 36
3.1 直方图 ........................................................................... 36
3.1.1 直方图的计算 ..................................................................................................... 39
3.1.2 算法实现 ............................................................................................................. 42
3.1.3 已知数据频数的情况下求直方图 ..................................................................... 49
3.1.4 日期类型直方图 ................................................................................................. 49
3.2 经验分布 ............................................................................... 57
3.3 近似分位数和近似百分位数 .................................................................. 61
3.4 PP、QQ 概率图 ........................................................................ 65
3.5 单变量的基本统计信息 ............................................................ 69
第4 章 多变量的数据特征 ............................................................ 77
4.1