数据仓库与数据挖掘复习总结
这是2023年秋课程期末考试的复习总结,是考试二轮的笔记🤔
全部的插图是一张大图,这张大图我个人画的还是很满意的qwq分享给大家
课程考核规划
课程主要内容
数据挖掘的基本概念、经典问题和算法、工具和应用
频繁模式挖掘、分类、聚类 的 算法及实践
考核方式:
平时作业(60%):签到(5)+随堂作业与讨论(25)+编程实验(30)
期末考试(40%):闭卷考试
第一讲 概述
数据挖掘: 从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括 数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。
数据挖掘功能:指定数据挖掘任务发现的模式或知识类型,包括特征化和区分,频繁模式、关联和相关性挖掘,聚类分析等。
成功应用: 如商务智能、Web搜索、生物信息学、金融、数字图书馆和数字政府等。
第二讲 认识数据
基本概念:数据集,数据对象,属性
属性的类别:标称,二元,离散,序列,数值;连续,离散
数据的统计描述:中心趋势,离散趋势,图形展示,可视化
数据的相异度:数据矩阵,相异度矩阵,相异度计算
相异度计算
数据矩阵、相异度矩阵
不同类型变量/属性,采用不同相异度计算方法
数值型属性--> 标准化--> 欧几里得距离
二元属性--> 相依表--> 对称 VS 非对称
分类属性--> 不匹配率
序数属性--> 基于秩计算相异度
向量对象--> 余弦距离
第三讲 预处理
数据清理
缺失值处理、噪声处理
数据集成与变换
相同实体发现、冗余与冲突分析
属性值规范化
数据归约
维归约、数量归约
离散化与概念分层产生
第四讲:频繁模式挖掘
本章涵盖基础概念和基本计算,建议认真领会阅读教材内容
基本概念
频繁模式挖掘里的基本概念
项集、频繁项集 闭频繁项集、极大频繁项集 关联规则:支持度、置信度 相关分析、相关度量
相关度量
提升度( lift )
卡方 χ^2^
全置信度( all-conf )
余弦( cosine )
最大置信度( max-confidence )
算法
【这部分自行分析查找伪代码,手算的步骤,好处坏处等】
fp-growth
apriori算法
使用垂直数据格式
分类基础
评估分类和预测方法的五条标准
准确率
计算速度
鲁棒性
可伸缩性
可解释性
决策树算法
ID3、C4.5、CART
朴素贝叶斯分类
分类
评估分类准确率的方法
推荐方法:分层的k-折交叉确认
提高整体准确率方法:装袋和提升
准确率度量的替换:灵敏性、特效性和精度
分类和预测是数据分析的两种形式,用来提取模型,描述重要数据类或预测未来的数据趋势。分类预测分类标号,预测建立连续值函数模型 决策树归纳的算法:ID3,C4.5,CART。很容易转换成IF-THEN分类规则 朴素贝叶斯分类和贝叶斯信念网络分类是基于后验概率的贝叶斯定理 分层的k-折交叉确认是一种推荐的评估分类法准确率的方法。 装袋和提升方法用于提高分类的整体准确率。 灵敏性、特效性和精度是对准确率度量的替换。
分类高级
【贝叶斯网络,神经网络,支持向量机】
惰性学习法(或从近邻学习)
k-最近邻分类 、基于案例的推理
其他分类方法
遗传算法、粗糙集方法、模糊集方法
关于分类的其他问题
多类分类、半监督分类
主动学习、迁移学习
第 七讲 聚类基础
簇: 是数据对象的集合,同一簇中的对象彼此相似,而不同簇中对象彼此相异。
聚类: 将物理或抽象对象的集合划分为相似对象的类的过程称为。
聚类算法:
**划分方法: ** k-means, k-medoids
层次方法: BIRCH, CHAMELEON
基于密度的方法: DBSCAN
聚类评估
估计聚类趋势: 霍普金斯统计量评估是否存在非均匀分布
确定簇数:
测定聚类质量:外在方法,内在方法(轮廓系数
第九讲 数据仓库与OLAP
数据仓库
基本模型
三层体系结构
设计和使用
ROLAP
MOLAP
HOLAP
考试题型
一、 选择 15*2分
二、 简答 3 * 5分
三、 计算 3 * 5分
四、 算法分析与流程图:3 * 8分
五、 应用题:16分
Last updated