3.4 KiB
3.4 KiB
第一节
- DRIP是数据丰富,信息匮乏的缩写
第二节
- Big data is high-volume(数据量大), high-velocity(高速,数据源源不断地来,速度很快) and high-variety(多类数据同时处理)
- volume TB -> ZB
- variety 声音图像视频,非结构化的数据
- velocity 算法处理流数据的能力
- 数据分析,数据处理的用途
- 分析警局位置以及犯罪率
- 有效性研究 -> 个性化医疗
- 地理位置 -> 城市规划
- 零售业 -> 精准销售
- 评论回复 -> 情感分析
- 社交网络 -> 关系分析,找到有影响的人,免费广告
第三节
- 数据挖掘定义
- 数据挖掘是从大量的、不完整的、有噪声的数据中自动提取感兴趣的、隐藏在数据中有用的信息的过程
- 并非全自动
- 人类的干预通常是不可避免地
- 领域知识
- 数据采集和预处理
- 从数据到智能
- 数据 -> 数据
- 预处理 -> 信息
- 数据挖掘 -> 知识
- 决策模型 -> 决策支持
- ETL
- 数据提取
- 数据转换
- 数据装载
- 数据挖掘过程
- 定义问题
- 收集数据
- 数据预处理
- 数据建模
- 数据解释和评估
- 数据满意-> 应用
- 不满意 -> 重做
第四节
- 分类:分类是根据事先标记的训练集,将一个或者多个特征的定量信息进行分组的过程
- 训练集 -> 寻找一个分类函数,能够把对象Xi分来到Yi中
- 算法: 决策树 -> K-近邻 ,神经网络 -> SVM
- 应用:客户流失预测,医疗诊断
- 分界面:直线 平行线 折线 曲线
- 测试数据和训练数据分开
- 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
- 距离度量:欧式距离,曼哈顿距离,马氏距离
- 算法:K-Means,层次聚类,最大最小距离聚类
- 层次聚类
- 关联规则
- 分类是有监督学习,有标签的,聚类是无标签所以是无监督学习
第五节
- 线性回归
- 过拟合:在模型/训练集上的效果很好,在测试集上的效果很差
第六节
- 数据预处理
- 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务
- 常见的问题 -> 属性丢失,不同的编码/命名方式,异常值、不一致数据
- G.I.G.O. -> Garbage In Garbage Out
- 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性
- 数据清洗 -> 补全缺失值,修改不正确的数据,清除噪音数据和范围外的数据
- 数据整合 -> 从不同的数据源收集数据
- 数据变换 -> 标准化、聚合、类型变换
- 数据简化 -> 特征选择、采样
- 互联网隐私
- 隐私保护
第七节
- 云计算
- 弹性服务器
- 根据使用量计费
- 并行计算
- 任务拆分
- 数据挖掘宏观概念
- 数据
- 模型
- 高性能的运算
- 客户的努力
特征选择
- 目的:降维
- 噪音?无关?重复?冗余?
- 属性分布
- 找出好的属性
- 如果一个属性可以把两个类别完美分开就是好的类别
- 熵
- 衡量不确定性
- 在概率为0或者1的时候为0 在0.5处为1拱形
高维数据可视化
- 线性方法
- 主成分分析 PCA
- 线性判别分析 LDA
- 多维尺度分析 MDS
- 星象图,雷达图
- 散点矩阵图
- 直观显示两个维度之间的相关性
- 不能显示多个维度上的协同关系
- 散点图数目与数据维度平方成正比
- 箱尾图