zhaoyingbo/nodebook

RainSun fdf14922c3 update

2020-03-09 16:44:25 +08:00

2.9 KiB

Raw Blame History

第一节

DRIP是数据丰富，信息匮乏的缩写

第二节

Big data is high-volume（数据量大）, high-velocity（高速，数据源源不断地来，速度很快） and high-variety（多类数据同时处理）
- volume TB -> ZB
- variety 声音图像视频，非结构化的数据
- velocity 算法处理流数据的能力
数据分析，数据处理的用途
- 分析警局位置以及犯罪率
- 有效性研究 -> 个性化医疗
- 地理位置 -> 城市规划
- 零售业 -> 精准销售
- 评论回复 -> 情感分析
- 社交网络 -> 关系分析，找到有影响的人，免费广告

第三节

数据挖掘定义
- 数据挖掘是从大量的、不完整的、有噪声的数据中自动提取感兴趣的、隐藏在数据中有用的信息的过程
- 并非全自动
  - 人类的干预通常是不可避免地
  - 领域知识
  - 数据采集和预处理
从数据到智能
- 数据 -> 数据
- 预处理 -> 信息
- 数据挖掘 -> 知识
- 决策模型 -> 决策支持
ETL
- 数据提取
- 数据转换
- 数据装载
数据挖掘过程
- 定义问题
- 收集数据
- 数据预处理
- 数据建模
- 数据解释和评估
- 数据满意-> 应用
- 不满意 -> 重做

第四节

分类：分类是根据事先标记的训练集，将一个或者多个特征的定量信息进行分组的过程
- 训练集 -> 寻找一个分类函数，能够把对象Xi分来到Yi中
- 算法：决策树 -> K-近邻，神经网络 -> SVM
- 应用：客户流失预测，医疗诊断
- 分界面：直线平行线折线曲线
- 测试数据和训练数据分开
聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
- 距离度量：欧式距离，曼哈顿距离，马氏距离
- 算法：K-Means，层次聚类，最大最小距离聚类
- 层次聚类
- 关联规则
分类是有监督学习，有标签的，聚类是无标签所以是无监督学习

第五节

线性回归
过拟合：在模型/训练集上的效果很好，在测试集上的效果很差

第六节

数据预处理
- 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务
- 常见的问题 -> 属性丢失，不同的编码/命名方式，异常值、不一致数据
- G.I.G.O. -> Garbage In Garbage Out
- 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性
- 数据清洗 -> 补全缺失值，修改不正确的数据，清除噪音数据和范围外的数据
- 数据整合 -> 从不同的数据源收集数据
- 数据变换 -> 标准化、聚合、类型变换
- 数据简化 -> 特征选择、采样
互联网隐私
- 隐私保护

第七节

云计算
- 弹性服务器
- 根据使用量计费
并行计算
- 任务拆分
数据挖掘宏观概念
- 数据
- 模型
- 高性能的运算
- 客户的努力