大数据时代,我们需要对各种海量数据进行筛选、清洗、挖掘,在这个过程中,获取有效数据的方式方法和模型算法成为了整个数据挖掘过程的重点,MATLAB作为一个数据挖掘工具,如何正确和准确地应用它成为了重中之重。
针对实际应用数据挖掘技术的要求,本书既介绍了数据挖掘的基础理论和技术,又较为详细地介绍了各种算法以及MATLAB程序。本书共分4篇,分别介绍了数据挖掘的基本概念、技术与算法以及应用实例。期望通过大量的实例分析帮助广大读者掌握数据挖掘技术,并应用于实际的研究中,提高对海量数据信息的处理及挖掘能力。本书针对性和实用性强,具有较高的理论和实用价值。
本书作者就职于部队高校,专攻数据挖掘,并应用于大量实际项目,本书同时得到了国内著名数据挖掘公司的技术支持,很多案例来自实际项目。
本书可作为高等院校计算机工程、信息工程、生物医学工程、化学、环境、经济、管理等学科的研究生、本科生的教材或教学参考书,亦可作为企事业单位管理者、信息分析人员、市场营销人员和研究与开发人员的参考资料。
目录
第1章 绪论 1
1.1 数据挖掘概述 2
1.2 数据挖掘的分类 4
1.3 数据挖掘的过程 5
1.4 数据挖掘的任务 6
1.5 数据挖掘的对象 8
1.5.1 数据库 8
1.5.2 文本 10
1.5.3 图像与视频数据 10
1.5.4 Web数据 11
1.6 数据挖掘建模方法 11
1.6.1 业务理解 12
1.6.2 数据理解 13
1.6.3 数据准备 13
1.6.4 建模 14
1.6.5 评估 15
1.6.6 部署 16
1.7 数据挖掘的应用 16
1.7.1 在金融领域的应用 16
1.7.2 在零售业中的应用 17
1.7.3 在电信业的应用 18
1.7.4 在管理中的应用 19
1.7.5 在化学研究领域中的应用 19
1.7.6 在材料研究、生产方面的应用 20
1.7.7 在机械故障诊断与监测中的应用 21
1.7.8 在医疗领域中的应用 22
第2章 数据挖掘算法 25
2.1 决策树算法 26
2.1.1 决策树基本算法 27
2.1.2 ID3算法 29
2.1.3 C4.5算法 30
2.1.4 CART算法 31
2.1.5 决策树的评价标准 32
2.1.6 决策树的剪枝及优化 33
2.1.7 基于matlab的决策树分析 34
2.2 人工神经网络算法 41
2.2.1 人工神经网络概述 41
2.2.2 人工神经网络的基本模型 41
2.2.3 BP神经网络 43
2.2.4 RBF神经网络 45
2.2.5 SOM神经网络 46
2.2.6 反馈型神经网络(Hopfield) 47
2.2.7 基于matlab的神经网络方法 49
2.3 进化算法 55
2.3.1 进化算法的基本原理 56
2.3.2 基因算法的主要步骤 60
2.3.3 基本遗传算法 61
2.3.4 进化规划算法 63
2.3.5 进化策略计算 64
2.3.6 量子遗传算法 68
2.3.7 人工免疫算法 72
2.3.8 基于matlab的进化算法 80
2.4 统计分析方法 87
2.4.1 假设检验 87
2.4.2 回归分析 91
2.4.3 二项逻辑(logistic)回归 100
2.4.4 方差分析 104
2.4.5 主成分分析 107
2.4.6 因子分析 110
2.4.7 基于matlab的统计分析方法 113
2.5 贝叶斯网络方法 141
2.5.1 贝叶斯定理、先验和后验 142
2.5.2 贝叶斯网络 142
2.5.3 贝叶斯网络学习 143
2.5.4 主要贝叶斯网络模型 145
2.5.5 基于matlab的贝叶斯网络方法 148
2.6 支持向量机 160
2.6.1 支持向量机概述 160
2.6.2 核函数 162
2.6.3 基于matlab的支持向量机方法 164
2.7 关联分析 167
2.7.1 概述 167
2.7.2 Apriori关联规则算法 170
2.7.3 基于分类搜索的关联规则算法 171
2.7.4 时序关联规则算法 173
2.7.5 多值属性关联规则算法 174
2.7.6 增量关联规则算法 175
2.7.7 基于关联规则的分类算法 176
2.7.8 模糊关联分类算法 177
2.7.9 关联规则的评价 178
2.7.10 辛普森悖论 179
2.7.11 基于matlab的关联规则分析 180
2.8 其他数据挖掘方法 182
2.8.1 近邻法 182
2.8.2 K-means聚类 184
2.8.3 基于matlab的近邻法及k-means聚类法 187
第3章 数据挖掘相关技术 191
3.1 数据仓库 192
3.1.1 概述 192
3.1.2 数据仓库设计 195
3.1.3 数据仓库的开发应用 199
3.1.4 数据仓库的技术管理 209
3.1.5 OLAP技术 210
3.1.6 基于matlab的数据仓库开发技术 214
3.2 模糊集理论 234
3.1.1 模糊集合 234
3.1.2 模糊关系 237
3.1.3 模糊聚类 239
3.3.5 基于matlab的模糊集处理技术 244
3.3 粗糙集技术 255
3.3.1 粗糙集理论的基本概念 256
3.3.2 分类规则的形成 259
3.3.3 知识的约简 259
3.3.4 模糊集与粗糙集 261
3.3.5 基于matlab的粗糙集处理方法 262
3.4 目标优化技术 265
3.4.1 极值问题 266
3.4.2 无约束非线性规划 267
3.4.3 有约束非线性规划 270
3.4.4 大规模优化问题的分解算法 270
3.4.5 其他优化方法 273
3.4.6 基于matlab的目标优化方法 274
3.5 可视化技术 281
3.5.1 可视化技术分类 282
3.5.2 多维数据可视化 283
3.5.3 图形的特征分析 294
3.5.4 基于多元图的图形分类方法 297
3.5.5 基于色度学空间的多元图表示 299
3.5.6 基于matlab的数据可视化技术 300
3.6 公式发现 314
3.6.1 概述 315
3.6.2 公式发现系统中的知识 315
3.6.3 基于matlab的公式发现 319
3.7 多媒体数据挖掘技术 320
3.7.1 文本挖掘 323
3.7.2 图像挖掘 331
3.7.3 视频挖掘 331
3.7.4 音频挖掘 332
3.7.5 复合类型数据的挖掘 333
3.8 Web数据挖掘技术 334
3.8.1 Web内容挖掘 335
3.8.2 Web结构挖掘 337
3.8.3 Web应用挖掘 338
第4章 数据挖掘应用实战 343
4.1 数据关系发现 344
4.2 数据统计特性 344
4.3 数据预处理 349
4.3.1 数据清理 349
4.3.2 数据集成与转换 351
4.3.3 数据归约与浓缩 353
4.3.4 数值数据的概念分层与离散化 360
4.3.5 例题 362
4.4 分类 373
4.5 例题 376
4.6 预测 381
4.6.1 回归分析 381
4.6.2 时间序列预测模型 385
4.6.3 马尔可夫链 389
4.6.4 灰色系统方法 390
4.6.5 例题 398
4.7 聚类 418
4.7.1 聚类分析概述 418
4.7.2 聚类分析中的数据类型 419
4.7.3相似性度量 422
4.7.4 聚类的特征 427
4.7.5 聚类准则 427
4.7.6 划分方法 429
4.7.7 层次方法 430
4.7.8 基于密度的方法 433
4.7.9 基于网格的方法 434
4.7.10 基于模型的聚类方法 435
4.4.11 基于目标函数的方法 436
4.7.12 离群点检测 438
4.7.13 聚类有效性 445
4.7.14 例题 448
4.8 时序数据挖掘 462
4.8.1 基本定义 463
4.8.2 时序数据挖掘参数 464
4.8.3 时序关联规则 464
4.8.4 时间序列挖掘 466
4.8.5 时间序列分段线性表示 468
4.8.6 时间序列的预测 469
4.8.7 例题 469
4.9 关联规则挖掘 481
4.9.1 关联规则的类型及挖掘算法 481
4.9.2 基于组织进化的关联规则挖掘 481
4.9.3 基于组织层次进化的关联规则挖掘 483
4.9.4 多维关联规则挖掘 484
4.9.5 关联规则扩展 485
4.9.6 例题 487
参考文献 500
下载体验