nodebook/Miscellaneous/bigData.md
2020-03-09 16:44:25 +08:00

2.9 KiB
Raw Blame History

第一节

  • DRIP是数据丰富信息匮乏的缩写

第二节

  • Big data is high-volume数据量大, high-velocity高速数据源源不断地来速度很快 and high-variety多类数据同时处理
    • volume TB -> ZB
    • variety 声音图像视频,非结构化的数据
    • velocity 算法处理流数据的能力
  • 数据分析,数据处理的用途
    • 分析警局位置以及犯罪率
    • 有效性研究 -> 个性化医疗
    • 地理位置 -> 城市规划
    • 零售业 -> 精准销售
    • 评论回复 -> 情感分析
    • 社交网络 -> 关系分析,找到有影响的人,免费广告

第三节

  • 数据挖掘定义
    • 数据挖掘是从大量的、不完整的、有噪声的数据中自动提取感兴趣的、隐藏在数据中有用的信息的过程
    • 并非全自动
      • 人类的干预通常是不可避免地
      • 领域知识
      • 数据采集和预处理
  • 从数据到智能
    • 数据 -> 数据
    • 预处理 -> 信息
    • 数据挖掘 -> 知识
    • 决策模型 -> 决策支持
  • ETL
    • 数据提取
    • 数据转换
    • 数据装载
  • 数据挖掘过程
    • 定义问题
    • 收集数据
    • 数据预处理
    • 数据建模
    • 数据解释和评估
    • 数据满意-> 应用
    • 不满意 -> 重做

第四节

  • 分类:分类是根据事先标记的训练集,将一个或者多个特征的定量信息进行分组的过程
    • 训练集 -> 寻找一个分类函数能够把对象Xi分来到Yi中
    • 算法: 决策树 -> K-近邻 ,神经网络 -> SVM
    • 应用:客户流失预测,医疗诊断
    • 分界面:直线 平行线 折线 曲线
    • 测试数据和训练数据分开
  • 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
    • 距离度量:欧式距离,曼哈顿距离,马氏距离
    • 算法K-Means层次聚类最大最小距离聚类
    • 层次聚类
    • 关联规则
  • 分类是有监督学习,有标签的,聚类是无标签所以是无监督学习

第五节

  • 线性回归
  • 过拟合:在模型/训练集上的效果很好,在测试集上的效果很差

第六节

  • 数据预处理
    • 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务
    • 常见的问题 -> 属性丢失,不同的编码/命名方式,异常值、不一致数据
    • G.I.G.O. -> Garbage In Garbage Out
    • 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性
    • 数据清洗 -> 补全缺失值,修改不正确的数据,清除噪音数据和范围外的数据
    • 数据整合 -> 从不同的数据源收集数据
    • 数据变换 -> 标准化、聚合、类型变换
    • 数据简化 -> 特征选择、采样
  • 互联网隐私
    • 隐私保护

第七节

  • 云计算
    • 弹性服务器
    • 根据使用量计费
  • 并行计算
    • 任务拆分
  • 数据挖掘宏观概念
    • 数据
    • 模型
    • 高性能的运算
    • 客户的努力