《IBM SPSS Modeler 18.0数据挖掘权威指南》
作者:张浩彬 周伟珠
出版社:人民邮电出版社
出版时间:2019-04-01
ISBN:9787115507594
内容简介
本书是一本以数据挖掘应用为主导,以SPSS Modeler为实践框架的应用指南,内容涵盖数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等,力求帮助读者全面掌握数据挖掘项目的主要内容以及实践细节。
除了操作层面,本书也尽可能的把晦涩的数据挖掘知识及商业应用内容以通俗易懂的方式传递给读者,同时全部场景会结合IBM SPSS工具进行实现并提供样例学习,方便读者在学习的同时加深巩固和理解。
如果你在在校学生、刚刚从事数据分析的大学毕业生、数据分析爱好者、市场营销人员、产品运营人员或者数据分析师,如果你想要提升自己的数据挖掘技术,那么就适合阅读本书。
目录
1章 IBM SPSS Modeler基本介绍 1
1.1 SPSS简介 1
1.2 SPSS Modeler的特点 1
1.3 CRISP-DM方法论 4
1.4 SPSS Modeler下载与安装 6
1.5 SPSS Modeler的主界面及基本操作 9
1.5.1 主界面介绍 9
1.5.2 鼠标基本操作 15
1.6 SPSS Modeler连接服务器端 15
1.7 从SPSS Modeler中获取帮助 17
1.8 实战技巧 20
第2章 数据读取—源节点 24
2.1 数据的身份(存储类型、测量级别和角色)24
2.1.1 变量的存储类型 24
2.1.2 变量的测量级别 25
2.1.3 变量的角色 26
2.2 数据读取 26
2.2.1 读取Excel文件数据 27
2.2.2 读取变量文件数据 30
2.2.3 读取SPSS(.sav)文件数据 32
2.2.4 读取数据库数据 36
2.3 实战技巧 40
第3章 数据整理—关于数据的基本设定与集成 43
3.1 字段的“类型”功能 43
3.2 字段的“过滤器”功能 44
3.3 数据集成 46
3.3.1 数据的记录集成:追加节点 46
3.3.2 数据的字段集成:合并节点 49
3.4 实战技巧 51
第4章 数据整理—关于行的处理 53
4.1 数据“选择”功能 53
4.1.1 功能介绍 53
4.1.2 实战技巧 55
4.2 使用参数及全局变量实现数据选择功能 56
4.2.1 参数功能 56
4.2.2 使用参数实例介绍 57
4.2.3 使用全局变量功能介绍 59
4.2.4 使用全局变量实例介绍 59
4.3 数据排序 62
4.4 数据区分 63
4.5 数据汇总 68
4.5.1功能介绍 68
4.5.2 实战技巧 72
第5章 数据整理—关于列的处理 73
5.1 导出 73
5.1.1 功能介绍 73
5.1.2 实例介绍 81
5.2 填充 84
5.3 重新分类 86
5.4 匿名化 89
5.5 分级化 92
5.6 设为标志 100
5.6.1 功能介绍 100
5.6.2 实例介绍 100
5.7 重建 103
5.7.1 功能介绍 103
5.7.2 实例介绍 104
5.8 转置 107
5.8.1 功能介绍 107
5.8.2 实例介绍 107
5.9 历史记录 109
5.9.1 功能介绍 109
5.9.2 实例介绍 109
5.10 字段重排 113
5.11 时间间隔 116
5.11.1 功能介绍 116
5.11.2 实例介绍 116
5.12 自动数据准备 121
第6章 图形可视化—图形节点 128
6.1 “散点图”节点 128
6.1.1 散点图 128
6.1.2 线图 139
6.1.3 多重散点图 142
6.1.4 时间散点图 143
6.2 “条形图”节点 145
6.2.1 简单条形图 145
6.2.2 堆积条形图 147
6.3 “直方图”节点 148
6.3.1 直方图 148
6.3.2 堆积直方图 148
6.4 “网络”节点 151
6.5 “图形板”节点 154
6.5.1 气泡图 155
6.5.2 散点图矩阵 156
6.5.3 箱图 157
6.5.4 聚类箱图 159
6.5.5 热图 161
6.6 实战技巧:图形的编辑模式 162
第7章 描述性统计分析 164
7.1 描述性统计分析概述 164
7.2 数据审核,一键输出描述性统计分析结果 169
7.3 缺失值的定义、检查和处理 173
7.3.1 缺失值的定义和检查 173
7.3.2 缺失值的自动化处理 177
7.4 实战技巧 182
第8章 常用的统计检验分析 184
8.1 两个连续型变量的关系分析—相关分析 184
8.1.1 相关分析 184
8.1.2 相关分析实战—“Statistics”节点 185
8.2 两个分类型变量的关系分析—卡方检验 187
8.2.1 列联表与卡方检验 188
8.2.2 卡方检验实践—“矩阵”节点 190
8.3 连续型变量与分类型变量间的关系分析—t检验及卡方分析 193
8.3.1 两组独立样本均值比较 193
8.3.2 两组配对样本均值比较 194
8.3.3 方差分析 194
8.3.4 均值比较实践—“平均值”节点 195
8.4 实战技巧:相关分析的注意事项 199
第9章 回归分析 200
9.1 一元线性回归分析 200
9.2 一元线性回归实践 203
9.3 多元线性回归分析 206
9.4 多元线性回归实践 210
9.5 逐步回归分析 216
9.6 逐步回归实践 218
9.7 实战技巧 220
第10章 Logistic回归分析 222
10.1 Logistic回归理论概要 222
10.2 Logistic回归中的检验 225
10.2.1 方程的显著性检验 225
10.2.2 系数显著性检验 225
10.2.3 拟合优度检验 227
10.3 Logistic回归实践案例 228
10.4 实战技巧 237
第11章 建模前的优化及准备工作 241
11.1 样本管理与分区 241
11.1.1 数据抽样 241
11.1.2 数据分区 244
11.1.3 数据平衡 245
11.2 特征选择 247
11.3 数据变换 253
11.4 实战技巧:分区与平衡的顺序 255
第12章 RFM分析 257
第13章 决策树 264
13.1 决策树概述 264
13.1.1 决策树的直观理解 264
13.1.2 决策树的生长 265
13.1.3 决策树的剪枝 266
13.2 C5.0算法 267
13.2.1 C5.0算法的决策树生长 267
13.2.2 C5.0算法的决策树剪枝 270
13.2.3 代价敏感学习 270
13.2.4 C5.0算法实践案例 271
13.3 CART算法 277
13.3.1 CART算法的决策树生长 277
13.3.2 CART算法的决策树剪枝 279
13.3.3 先验概率 280
13.3.4 实战技巧 287
13.4 实战技巧 287
13.4.1 生成规则集 287
13.4.2 跟踪规则 289
第14章 神经网络 291
14.1 感知机 292
14.2 多层感知机与误差反向传播算法 295
14.2.1 隐藏层 295
14.2.2 反向传播算法 296
14.3 神经网络实战 299
14.4 实战技巧:生成“报告" 305
第15章 集成学习算法 311
15.1 Bagging 311
15.2 Boosting 312
15.3 随机森林 314
15.4 集成学习算法实践 314
15.4.1 Bagging和Boosting实践315
15.4.2 随机森林实践 320
15.4.3 各个集成学习算法的结果比较 324
15.5 异质集成—“整体”节点 325
第16章 聚类方法概述 330
16.1 聚类方法概述 330
16.2 聚类方法的关键:距离 330
16.3 K-means算法 331
16.3.1 K-means算法原理 331
16.3.2 K-means的其他注意事项 332
16.4 K-means聚类实践 335
16.5 实践技巧:使用平行图进行比较分析 341
第17章 KNN分类器 343
17.1 KNN学习方法原理 343
17.2 KNN分类实践 346
17.2.1 分类预测 346
17.2.2 近邻识别 353
第18章 关联分析 356
18.1 关联分析的基本概念 356
18.2 关联规则的有效性指标 357
18.2.1 关联规则的基础评价性指标 358
18.2.2 关联规则的实用性指标 359
18.2.3 其他的关联规则评估指标 360
18.3 Apriori算法 361
18.3.1 生成频繁项集 361
18.3.2 生成关联规则 362
18.4 Apriori关联分析实践 363
18.5 实战技巧:导出生成的关联规则 367
第19章 自动建模 368
19.1 自动分类 368
19.1.1 功能介绍 368
19.1.2 实例介绍 368
19.2 自动聚类 375
19.2.1 功能介绍 375
19.2.2 实例介绍 376
19.3 自动数值 381
19.3.1 功能介绍 381
19.3.2 实例介绍 381
第20章 蒙特卡罗模拟法 386
20.1 模拟生成 386
20.1.1 功能介绍 386
20.1.2 实例介绍 389
20.2 模拟拟合 393
20.2.1 功能介绍 393
20.2.2 实例介绍 394
20.3 模拟求值 396
20.3.1 功能介绍 396
20.3.2 实例介绍 396
第21章 SPSS Modeler的集成与扩展 404
21.1 SPSS Modeler与R、Python集成 404
21.1.1 概述 404
21.1.2 SPSS Modeler与R的集成环境准确 404
21.1.3 与R的集成功能介绍 407
21.1.4 实例介绍 408
21.2 定制对话框实现与R、Python的集成 416
21.2.1 定制对话框简介 416
21.2.2 安装配置自定义节点 422
21.3 SPSS Modeler扩展功能 422
21.3.1 功能介绍 422
21.3.2 获取天气数据的应用分析案例 425
第22章 SPSS Modeler模型部署 434
22.1 产品架构 434
22.2 通过批处理任务定时运行模型 435
22.2.1 功能介绍 435
22.2.2 实例介绍 436
22.3 SPSS Modeler服务器安装及管理(For Linux) 438
22.3.1 正常维护SPSS Modeler服务器 438
22.3.2 SPSS Modeler服务器如何在Linux上安装及配置 439
22.3.3 配置ODBC连接数据库 440
22.4 SPSS Modeler官方支持的数据库和Hadoop平台 443
第23章 性能优化 448
23.1 功能介绍 448
23.2 客户端SQL性能优化 451
23.3 数据库内建模 453
23.3.1 功能介绍 453
23.3.2 实例介绍 453
23.4 使用外部程序批量加载 456