R数据科学实战(第2版)/大数据应用与技术丛书

价格 139.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 3 人关注
数量
+-
库存100
 
联系方式
加关注0

新书科技

VIP   VIP会员第2年
资料未认证
保证金未缴纳

内容简介

有依据的决策对于关重要。将正确的数据分析技术应用到精心筹备的业务数据中有助于做出预测、确定趋势,以及问题。R数据分析平台提供了许多率的工具,可用来处理8常的数据分析和机器学习任务。《R数据科学实战》(第2版)是一本基于任务的教程,引导读者使用R语言参与几十个实用的数据分析实践。本书介绍读者在工作中将面临的重要任务,对于商业分析师和数据科学家来说都实用。因为数据只有在可理解的情况下才有用,所以读者也可以在表格中找到组织和展示数据的妙招,以及快速生动的可视化效果。主要内容商务级统计分析有效的数据展示实用的R工具解释复杂的预测模型。

目录

目 录第Ⅰ部分 数据科学引论第1章 数据科学处理过程 21.1 数据科学项目中的角色 31.2 数据科学项目的阶段 51.2.1 制定目标 61.2.2 收集和管理数据 71.2.3 建立模型 91.2.4 评价和评判模型 101.2.5 展现结果和编制文档 121.2.6 部署模型 141.3 设定预期 141.4 小结 15第2章 从R和数据入门 162.1 R入门 172.1.1 安装R、工具和示例 182.1.2 R编程 182.2 处理文件中的数据 282.2.1 使用来自文件或URL的_x00B_结构良好的数据 282.2.2 使用R处理非结构化的_x00B_数据 332.3 使用关系数据库 372.4 小结 50第3章 探索数据 523.1 使用概要统计方法发现_x00B_问题 543.2 使用图形和可视化方法_x00B_发现问题 593.2.1 采用可视化的方法检查_x00B_单变量的分布 613.2.2 采用可视化的方法检查_x00B_两个变量之间的关系 713.3 小结 87第4章 管理数据 894.1 清洗数据 904.1.1 特定领域的数据清洗 904.1.2 处理缺失值 924.1.3 自动处理缺失值变量的_x00B_vtreat程 964.2 数据转换 994.2.1 归一化处理 1014.2.2 中心化和定标 1024.2.3 针对偏态分布和广泛_x00B_分布的对数转换 1074.3 用于建模和验证的抽样_x00B_处理 1094.3.1 用于测试和训练的分组_x00B_数据集 1104.3.2 创建一个样本分组列 1114.3.3 记录分组 1124.3.4 数据来源 1134.4 小结 114第5章 数据工程与数据整理 1155.1 数据选取 1185.1.1 设置行子集和列子集 1185.1.2 删除不完整的数据的_x00B_记录 1245.1.3 对行进行排序 1285.2 基础数据转换 1335.2.1 添加新列 1335.2.2 其他简单操作 1395.3 转换 1405.4 多表之间数据的转换 1445.4.1 快速地对两个或多个_x00B_排序的数据框执行合并 1445.4.2 合并多个表中数据的_x00B_主要方法 1525.5 重新整理和转换数据 1595.5.1 将数据从宽表转换为_x00B_窄表 1595.5.2 将数据从窄表转换为_x00B_宽表 1645.5.3 数据坐标 1695.6 小结 169第Ⅱ部分 建模方法第6章 选择和评价模型 1726.1 将业务问题映射为机器学习任务 1736.1.1 分类问题 1736.1.2 打分问题 1756.1.3 分组:目标未知情况下_x00B_的处理 1766.1.4 从问题到方法的映射 1786.2 模型评估 1796.2.1 过拟合 1796.2.2 模型能的度量 1836.2.3 分类模型的评价 1846.2.4 评估打分模型 1956.2.5 概率模型的评估 1986.3 使用局部可解释的、与模型_x00B_无关的解释技术(LIME)来解释模型预测 2066.3.1 LIME:自动的完整_x00B_检查 2086.3.2 LIME实现过程:一个_x00B_小样本 2086.3.3 LIME用于文本分类 2166.3.4 对文本分类器进行训练 2196.3.5 对分类器的预测进行_x00B_解释 2216.4 小结 227第7章 线和逻辑回归 2287.1 使用线回归 2297.1.1 了解线回归 2297.1.2 建立一个线回归模型 2357.1.3 预测 2357.1.4 发现关系并抽取建议 2417.1.5 阅读模型摘要并刻画_x00B_系数质量 2437.1.6 线回归要点 2507.2 使用逻辑回归 2517.2.1 理解逻辑回归 2517.2.2 构建逻辑回归模型 2567.2.3 预测 2577.2.4 从逻辑回归模型中发现_x00B_关系并提取建议 2627.2.5 解读模型摘要并刻画_x00B_系数 2647.2.6 逻辑回归的要点 2727.3 正则化 2727.3.1 一个准分离的例子 2737.3.2 正则化回归方法的类型 2787.3.3 使用glm程实现_x00B_正则化回归 2807.4 小结 291第8章 数据准备 2928.1 vtreat程的作用 2938.2 KDD和KDD Cup 2009 2958.2.1 使用KDD Cup 2009_x00B_数据 2968.2.2 “莽撞”做法 2988.3 为分类操作准备基本数据 3018.3.1 变量的分数框 3038.3.2 正确使用处理计划 3088.4 适用于分类的数据_x00B_准备 3098.4.1 使用mkCrossframe-_x00B_CExperiment() 3098.4.2 建立模型 3128.5 为回归建模准备数据 3178.6 掌握vtreat程 3208.6.1 vtreat的各个阶段 3208.6.2 缺失值 3228.6.3 指示变量 3238.6.4 影响编码 3248.6.5 处理计划 3268.6.6 交叉框 3278.7 小结 332第9章 无监督方法 3339.1 聚类分析 3349.1.1 距离 3359.1.2 数据准备 3389.1.3 使用hclust()进行层次_x00B_聚类 3419.1.4 k-均值算法 3569.1.5 给聚类分派新的点 3639.1.6 聚类的要点 3659.2 关联规则 3669.2.1 关联规则概述 3669.2.2 示例问题 3689.2.3 使用arules程挖掘_x00B_关联规则 3699.2.4 关联规则要点 3799.3 小结 379第10章 方法探索 38110.1 基于决策树的方法 38310.1.1 基本决策树 38410.1.2 使用bagging方法改进_x00B_预测 38710.1.3 使用森林方法进一_x00B_步改进预测 39010.1.4 梯度增强树 39710.1.5 基于决策树的模型的_x00B_要点 40710.2 使用广义相加模型学习_x00B_非单调关系 40710.2.1 理解GAM 40810.2.2 一维回归示例 40910.2.3 提取非线关系 41410.2.4 在真实数据集上使用_x00B_GAM 41610.2.5 使用GAM实现_x00B_逻辑回归 42010.2.6 GAM要点 42210.3 使用支持向量机解决“不可分”的问题 42210.3.1 使用SVM解决问题 42410.3.2 理解SVM 42910.3.3 理解核函数 43110.3.4 支持向量机和核方法_x00B_要点 43410.4 小结 434第Ⅲ部分 结果交付第11章 文档编制和部署 43811.1 预测热点 44011.2 使用R markdown生成里程碑文档 44111.2.1 R markdown是什么 44111.2.2 knitr技术详解 44411.2.3 使用knitr编写Buzz数据_x00B_文档和生成模型 44611.3 在运行时文档编制中使用注释和版本控制 44911.3.1 编写有效的注释 44911.3.2 使用版本控制记录历史 45111.3.3 使用版本控制探索项目 45711.3.4 使用版本控制分享工作 46011.4 模型部署 46411.4.1 使用Shiny部署演示 46611.4.2 将模型部署为_x00B_服务 46711.4.3 以导出模式部署模型 47011.4.4 本节要点 47211.5 小结 472第12章 有效的结果展现 47412.1 将结果展现给项目出资方 47612.1.1 概述项目目标 47712.1.2 陈述项目结果 47912.1.3 补充细节 48012.1.4 提出建议并讨论未来_x00B_工作 48212.1.5 针对项目出资方的演示_x00B_文稿中的关键点 48212.2 向终用户展现模型 48312.2.1 概述项目目标 48312.2.2 展现如何将模型应用于_x00B_用户的工作流程 48412.2.3 展现如何使用模型 48612.2.4 终用户演示文稿中的_x00B_关键点 48812.3 向其他数据科学家展现你的工作 48812.3.1 介绍问题 48812.3.2 讨论相关工作 48912.3.3 讨论你的方法 49012.3.4 讨论结果和未来的工作 49112.3.5 向其他数据科学家展现的_x00B_要点 49312.4 小结 493附录A 使用R和其他工具 495A.1 安装 495A.1.1 安装工具 495A.1.2 R的程系统 500A.1.3 安装Git 501A.1.4 安装RStudio 501A.1.5 R资源 502A.2 开始使用R语言 503A.2.1 R语言的基本特 505A.2.2 R语言的主要数据类型 509A.3 在R语言中使用数据库 515A.3.1 使用查询生成器运行数据库_x00B_查询 515A.3.2 如何从关系角度思考_x00B_数据 520A.4 小结 522附录B 重要的统计学概念 523B.1 分布 524B.1.1 正态分布 524B.1.2 R语言中对分布的命名_x00B_约定的 529B.1.3 对数正态分布 530B.1.4 二项式分布 534B.1.5 更多用于数据分布的_x00B_R工具 541B.2 统计理论 541B.2.1 统计的哲学思想 541B.2.2 A/B检验 544B.2.3 检验效 548B.2.4 专业的统计检验 550B.3 从统计学视角观察数据的_x00B_示例 552B.3.1 采样偏差 553B.3.2 遗漏变量偏差 556B.4 小结 562附录C 参考文献 563

举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号