数据挖掘原理、算法与套用
基本介绍
- 书名:数据挖掘原理、算法与套用
- 作者:梁亚声
- ISBN:978-7-111-49632-8
- 定价:49.0
- 出版时间:2015-04-23
- 装帧:平装
- 开本:16开
基本信息
数据挖掘原理、算法与套用
书号: 49632
ISBN: 978-7-111-49632-8
作者: 梁亚声
印次: 1-1
责编: 郝建伟
开本: 16开
字数: 513千字
定价: 49.0
所属丛书: 高等教育规划教材
装订: 平装
出版日期: 2015-04-23
内容简介
本书介绍了数据挖掘的基本概念和数据挖掘过程,以及数据挖掘发展历程和趋势,详细介绍了数据存储和组织、数据预处理、数据相似度与异常检测等数据挖掘的基础技术,详细分类介绍了数据分类和预测、数据聚类分析、数据关联分析等典型的数据挖掘技术,以及可信度评估技术,集中介绍了大数据环境下的数据挖掘技术。本书介绍了各种技术和算法的基本思想、基本原理、以及方法、步骤、模型和结构,分析其优点和局限性,给出典型套用实例
目录信息
出版说明
前言
第1章概述
1 1从数据中获取知识
1 2数据挖掘的基本概念
1 3数据挖掘的发展历程
1 4数据挖掘的功能和数据挖掘
系统的分类
1 4 1分类与回归
1 4 2聚类分析
1 4 3关联规则
1 4 4时序模式
1 4 5异常检测
1 4 6数据挖掘系统的分类
1 5数据挖掘的过程
1 5 1数据挖掘的一般流程
1 5 2跨行业数据挖掘标準过程
1 6数据挖掘与其他学科的关係
1 6 1数据挖掘与资料库知识发现
1 6 2数据挖掘与资料库查询
1 6 3数据挖掘与统计分析
1 6 4数据挖掘与数据仓库
1 6 5数据挖掘与在线上分析处理
1 6 6数据挖掘与人工智慧、专家系统、
机器学习
1 7数据挖掘的套用和发展趋势
1 7 1商业的数据挖掘
1 7 2金融业的数据挖掘
1 7 3欺诈侦测中的数据挖掘
1 7 4DNA数据分析中的数据挖掘
1 7 5电信业中的数据挖掘
1 7 6科学和统计数据挖掘
1 7 7数据挖掘系统和软体
1 7 8数据挖掘的发展趋势
1 8小结
1 9习题
第2章数据存储
2 1关係数据集
2 2数据仓库
2 2 1数据仓库的概念和特点
2 2 2数据仓库的数据组织
2 2 3数据仓库的关键技术
2 2 4数据仓库与数据挖掘的关係
2 3NoSQL资料库
2 3 1NoSQL概念与理论
2 3 2NoSQL数据模型
2 3 3NoSQL与关係资料库
2 4分散式档案系统
2 4 1分散式档案系统的历史
2 4 2分散式档案系统的体系结构
2 4 3谷歌档案系统(GoogleFS)
2 4 4Hadoop分散式档案系统
(HDFS)
2 5小结
2 6习题
第3章数据预处理
3 1数据预处理的必要性
3 2数据清理
3 2 1缺失数据处理方法
3 2 2噪声数据平滑技术
3 2 3时间相关数据的处理
3 3数据集成
3 3 1实体识别与匹配
3 3 2冗余和相关分析
3 3 3元组重複数据的检测
3 3 4冲突数据的检测与处理
3 4数据转换
3 4 1数据标準化
3 4 2数据泛化
3 5数据归约
3 5 1数据立方体聚集
3 5 2维度归约
3 5 3数据压缩
3 5 4数值归约
3 6数据离散化
3 6 1分箱方法
3 6 2直方图分析
3 6 3基于熵的离散化
3 6 4ChiMerge技术
3 6 5人工划分分段
3 7特徵提取、选择和构造
3 7 1特徵提取
3 7 2特徵选择
3 7 3特徵构造
3 8小结
3 9习题
第4章数据相似度与异常检测
4 1相似度度量
4 1 1对象与属性类型
4 1 2相似度度量的定义
4 1 3由距离度量变换而来的
相似度度量
4 1 4属性之间的相似度度量
4 1 5对象之间的相似度度量
4 2传统度量方法
4 2 1二值属性的相似度度量
4 2 2欧氏距离
4 2 3余弦距离
4 2 4Mahalanobis距离
4 2 5Jaccard距离
4 2 6海明距离
4 3大数据度量方法
4 3 1文档的Shingling
4 3 2局部敏感散列算法
4 4异常检测
4 4 1基于统计的检测方法
4 4 2基于距离的检测方法
4 4 3基于密度的检测方法
4 4 4基于聚类的检测方法
4 4 5基于分类的检测方法
4 4 6高维数据中的异常点检测
4 5小结
4 6习题
第5章数据分类和预测
5 1分类和预测的基本概念
5 1 1準备数据
5 1 2分类和预测方法的评估标準
5 2决策树分类
5 2 1ID3算法生成决策树
5 2 2C4 5算法生成决策树
5 2 3CART算法和Gini指标
5 2 4决策树归纳的可扩展性
5 2 5数据仓库与决策树
5 2 6决策树和决策规则的局限性
5 3贝叶斯分类
5 3 1贝叶斯定理
5 3 2朴素贝叶斯分类
5 3 3贝叶斯信念网路
5 3 4训练贝叶斯信念网路
5 4神经网路
5 4 1多层前馈神经网路
5 4 2定义神经网路的拓扑结构
5 4 3后向传播
5 4 4后向传播和可理解性
5 5其他分类方法
5 5 1基于关联的分类方法
5 5 2K-最近邻分类
5 5 3基于案例推理
5 5 4遗传算法
5 5 5粗糙集方法
5 5 6模糊集合方法
5 6预测算法
5 6 1预测算法分类
5 6 2预测算法选择
5 6 3线性和多元回归
5 6 4非线性回归
5 6 5其他回归模型
5 7分类预测套用实例
5 7 1样本选取
5 7 2建立预测模型
5 7 3模型评估
5 7 4实用价值
5 8小结
5 9习题
第6章数据聚类分析
6 1基本概念
6 1 1对聚类分析的要求
6 1 2聚类分析方法分类
6 2划分聚类算法
6 2 1K-means算法(基于
质心的技术)
6 2 2K-medoids算法(基于代表
对象的技术)
6 3层次聚类算法
6 3 1BIRCH算法
6 3 2CURE算法
6 3 3ROCK算法
6 3 4Chameleon算法
6 4基于密度的聚类算法
6 4 1DBSCAN算法
6 4 2OPTICS算法
6 4 3DENCLUE算法
6 5基于格线的聚类算法
6 5 1STING算法
6 5 2WaveCluster算法
6 5 3CLIQUE算法
6 6基于模型的聚类算法
6 6 1EM算法
6 6 2COBWEB算法
6 6 3SOM算法
6 7聚类评估
6 7 1估计聚类趋势
6 7 2确定簇数
6 7 3测定聚类质量
6 8聚类分析套用实例
6 8 1问题理解与提出
6 8 2数据收集与选择
6 8 3数据预处理
6 8 4套用K-means聚类算法建模
6 9小结
6 10习题
第7章数据关联分析
7 1数据关联分析的基本概念
7 2频繁项集产生
7 2 1先验原理
7 2 2Apriori算法的频繁项集产生
7 2 3支持度计数
7 2 4计算複杂度
7 3规则产生
7 3 1基本步骤
7 3 2Apriori算法中规则的产生
7 4频繁项集的紧凑表示
7 4 1最大频繁项集
7 4 2闭频繁项集
7 5产生频繁项集的其他方法
7 5 1项集格遍历
7 5 2事务数据集的表示
7 6FP-Growth算法
7 6 1FP树构造
7 6 2频繁项集产生
7 7关联评估
7 7 1兴趣度客观度量
7 7 2多个二元变数的度量
7 7 3倾斜支持度分布的影响
7 8关联分析套用实例
7 8 1关联分析学生成绩
7 8 2数据处理
7 8 3算法的套用
7 8 4挖掘结果的分析
7 9小结
7 10习题
第8章性能评估和提升
8 1评分函式
8 1 1预测性评分函式
8 1 2描述性评分函式
8 1 3一致性评价
8 2成本评价
8 2 1成本评价曲线
8 2 2Cost-Sensitive学习
8 3複杂度评估
8 4验证
8 4 1交叉验证
8 4 2Bootstrap
8 4 3模型比较
8 5性能提升
8 5 1效率提升
8 5 2準确率提升
8 6小结
8 7习题
第9章複杂数据挖掘
9 1文本数据挖掘
9 1 1文本数据预处理
9 1 2文本数据挖掘技术
9 1 3文本数据挖掘的套用
9 2图像数据挖掘
9 2 1图像数据的特点和挖掘
技术现状
9 2 2图像数据预处理
9 2 3图像数据挖掘技术
9 2 4图像数据挖掘的套用
9 3语音识别挖掘
9 3 1语音数据特点及挖掘
技术现状
9 3 2语音信号预处理
9 3 3语音识别技术
9 3 4语音识别技术的套用
9 4视频数据挖掘
9 4 1视频数据特点及挖掘
技术现状
9 4 2视频数据预处理
9 4 3视频数据挖掘技术
9 4 4视频数据挖掘的套用
9 5网路拓扑挖掘
9 5 1拓扑发现的技术现状及网路
数据的採集
9 5 2基于挖掘技术的网路
拓扑发现
9 6网路舆情挖掘
9 6 1舆情研究发展现状及舆情
特点
9 6 2网路舆情数据预处理
9 6 3网路舆情挖掘技术
9 7推荐系统
9 7 1推荐系统发展现状
9 7 2相关技术
9 7 3推荐系统
9 8空间数据挖掘
9 8 1空间数据的特点
9 8 2空间数据预处理
9 8 3空间数据挖掘技术
9 8 4空间数据挖掘工具
9 9数据流挖掘
9 9 1数据流的特点
9 9 2数据流预处理
9 9 3数据流挖掘技术
9 9 4数据流挖掘技术的套用
9 10小结
9 11习题
参考文献