# 第一节 * DRIP是数据丰富,信息匮乏的缩写 # 第二节 * Big data is high-volume(数据量大), high-velocity(高速,数据源源不断地来,速度很快) and high-variety(多类数据同时处理) * volume TB -> ZB * variety 声音图像视频,非结构化的数据 * velocity 算法处理流数据的能力 * 数据分析,数据处理的用途 * 分析警局位置以及犯罪率 * 有效性研究 -> 个性化医疗 * 地理位置 -> 城市规划 * 零售业 -> 精准销售 * 评论回复 -> 情感分析 * 社交网络 -> 关系分析,找到有影响的人,免费广告 # 第三节 * 数据挖掘定义 * 数据挖掘是从**大量的**、不完整的、有噪声的数据中**自动提取感兴趣的、隐藏在数据中有用的信息**的过程 * 并非全自动 * 人类的干预通常是不可避免地 * 领域知识 * 数据采集和预处理 * 从数据到智能 * 数据 -> 数据 * 预处理 -> 信息 * 数据挖掘 -> 知识 * 决策模型 -> 决策支持 * ETL * 数据提取 * 数据转换 * 数据装载 * 数据挖掘过程 * 定义问题 * 收集数据 * 数据预处理 * 数据建模 * 数据解释和评估 * 数据满意-> 应用 * 不满意 -> 重做 # 第四节 * 分类:分类是根据事先标记的训练集,将一个或者多个特征的定量信息进行分组的过程 * 训练集 -> 寻找一个分类函数,能够把对象Xi分来到Yi中 * 算法: 决策树 -> K-近邻 ,神经网络 -> SVM * 应用:客户流失预测,医疗诊断 * 分界面:直线 平行线 折线 曲线 * 测试数据和训练数据分开 * 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程 * 距离度量:欧式距离,曼哈顿距离,马氏距离 * 算法:K-Means,层次聚类,最大最小距离聚类 * 层次聚类 * 关联规则 * 分类是有监督学习,有标签的,聚类是无标签所以是无监督学习 # 第五节 * 线性回归 * 过拟合:在模型/训练集上的效果很好,在测试集上的效果很差 # 第六节 * 数据预处理 * 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务 * 常见的问题 -> 属性丢失,不同的编码/命名方式,异常值、不一致数据 * G.I.G.O. -> Garbage In Garbage Out * 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性 * 数据清洗 -> 补全缺失值,修改不正确的数据,清除噪音数据和范围外的数据 * 数据整合 -> 从不同的数据源收集数据 * 数据变换 -> 标准化、聚合、类型变换 * 数据简化 -> 特征选择、采样 * 互联网隐私 * 隐私保护 # 第七节 * 云计算 * 弹性服务器 * 根据使用量计费 * 并行计算 * 任务拆分 * 数据挖掘宏观概念 * 数据 * 模型 * 高性能的运算 * 客户的努力 # 特征选择 * 目的:降维 * 噪音?无关?重复?冗余? * 属性分布 * 找出好的属性 * 如果一个属性可以把两个类别完美分开就是好的类别 * 熵 * 衡量不确定性 * 在概率为0或者1的时候为0 在0.5处为1拱形 # 高维数据可视化 * 线性方法 * 主成分分析 PCA * 线性判别分析 LDA * 多维尺度分析 MDS * 星象图,雷达图 * 散点矩阵图 * 直观显示两个维度之间的相关性 * 不能显示多个维度上的协同关系 * 散点图数目与数据维度平方成正比 * 箱尾图