2020-04-02 17:29:57 +08:00

3.4 KiB
Raw Permalink Blame History

第一节

  • DRIP是数据丰富信息匮乏的缩写

第二节

  • Big data is high-volume数据量大, high-velocity高速数据源源不断地来速度很快 and high-variety多类数据同时处理
    • volume TB -> ZB
    • variety 声音图像视频,非结构化的数据
    • velocity 算法处理流数据的能力
  • 数据分析,数据处理的用途
    • 分析警局位置以及犯罪率
    • 有效性研究 -> 个性化医疗
    • 地理位置 -> 城市规划
    • 零售业 -> 精准销售
    • 评论回复 -> 情感分析
    • 社交网络 -> 关系分析,找到有影响的人,免费广告

第三节

  • 数据挖掘定义
    • 数据挖掘是从大量的、不完整的、有噪声的数据中自动提取感兴趣的、隐藏在数据中有用的信息的过程
    • 并非全自动
      • 人类的干预通常是不可避免地
      • 领域知识
      • 数据采集和预处理
  • 从数据到智能
    • 数据 -> 数据
    • 预处理 -> 信息
    • 数据挖掘 -> 知识
    • 决策模型 -> 决策支持
  • ETL
    • 数据提取
    • 数据转换
    • 数据装载
  • 数据挖掘过程
    • 定义问题
    • 收集数据
    • 数据预处理
    • 数据建模
    • 数据解释和评估
    • 数据满意-> 应用
    • 不满意 -> 重做

第四节

  • 分类:分类是根据事先标记的训练集,将一个或者多个特征的定量信息进行分组的过程
    • 训练集 -> 寻找一个分类函数能够把对象Xi分来到Yi中
    • 算法: 决策树 -> K-近邻 ,神经网络 -> SVM
    • 应用:客户流失预测,医疗诊断
    • 分界面:直线 平行线 折线 曲线
    • 测试数据和训练数据分开
  • 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
    • 距离度量:欧式距离,曼哈顿距离,马氏距离
    • 算法K-Means层次聚类最大最小距离聚类
    • 层次聚类
    • 关联规则
  • 分类是有监督学习,有标签的,聚类是无标签所以是无监督学习

第五节

  • 线性回归
  • 过拟合:在模型/训练集上的效果很好,在测试集上的效果很差

第六节

  • 数据预处理
    • 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务
    • 常见的问题 -> 属性丢失,不同的编码/命名方式,异常值、不一致数据
    • G.I.G.O. -> Garbage In Garbage Out
    • 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性
    • 数据清洗 -> 补全缺失值,修改不正确的数据,清除噪音数据和范围外的数据
    • 数据整合 -> 从不同的数据源收集数据
    • 数据变换 -> 标准化、聚合、类型变换
    • 数据简化 -> 特征选择、采样
  • 互联网隐私
    • 隐私保护

第七节

  • 云计算
    • 弹性服务器
    • 根据使用量计费
  • 并行计算
    • 任务拆分
  • 数据挖掘宏观概念
    • 数据
    • 模型
    • 高性能的运算
    • 客户的努力

特征选择

  • 目的:降维
  • 噪音?无关?重复?冗余?
  • 属性分布
    • 找出好的属性
    • 如果一个属性可以把两个类别完美分开就是好的类别
    • 衡量不确定性
    • 在概率为0或者1的时候为0 在0.5处为1拱形

高维数据可视化

  • 线性方法
    • 主成分分析 PCA
    • 线性判别分析 LDA
    • 多维尺度分析 MDS
  • 星象图,雷达图
  • 散点矩阵图
    • 直观显示两个维度之间的相关性
    • 不能显示多个维度上的协同关系
    • 散点图数目与数据维度平方成正比
  • 箱尾图