2.9 KiB
2.9 KiB
第一节
- DRIP是数据丰富,信息匮乏的缩写
第二节
- Big data is high-volume(数据量大), high-velocity(高速,数据源源不断地来,速度很快) and high-variety(多类数据同时处理)
- volume TB -> ZB
- variety 声音图像视频,非结构化的数据
- velocity 算法处理流数据的能力
- 数据分析,数据处理的用途
- 分析警局位置以及犯罪率
- 有效性研究 -> 个性化医疗
- 地理位置 -> 城市规划
- 零售业 -> 精准销售
- 评论回复 -> 情感分析
- 社交网络 -> 关系分析,找到有影响的人,免费广告
第三节
- 数据挖掘定义
- 数据挖掘是从大量的、不完整的、有噪声的数据中自动提取感兴趣的、隐藏在数据中有用的信息的过程
- 并非全自动
- 人类的干预通常是不可避免地
- 领域知识
- 数据采集和预处理
- 从数据到智能
- 数据 -> 数据
- 预处理 -> 信息
- 数据挖掘 -> 知识
- 决策模型 -> 决策支持
- ETL
- 数据提取
- 数据转换
- 数据装载
- 数据挖掘过程
- 定义问题
- 收集数据
- 数据预处理
- 数据建模
- 数据解释和评估
- 数据满意-> 应用
- 不满意 -> 重做
第四节
- 分类:分类是根据事先标记的训练集,将一个或者多个特征的定量信息进行分组的过程
- 训练集 -> 寻找一个分类函数,能够把对象Xi分来到Yi中
- 算法: 决策树 -> K-近邻 ,神经网络 -> SVM
- 应用:客户流失预测,医疗诊断
- 分界面:直线 平行线 折线 曲线
- 测试数据和训练数据分开
- 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
- 距离度量:欧式距离,曼哈顿距离,马氏距离
- 算法:K-Means,层次聚类,最大最小距离聚类
- 层次聚类
- 关联规则
- 分类是有监督学习,有标签的,聚类是无标签所以是无监督学习
第五节
- 线性回归
- 过拟合:在模型/训练集上的效果很好,在测试集上的效果很差
第六节
- 数据预处理
- 真实的数据经常是脏数据 -> 数据预处理是数据挖掘中具有挑战性的任务
- 常见的问题 -> 属性丢失,不同的编码/命名方式,异常值、不一致数据
- G.I.G.O. -> Garbage In Garbage Out
- 数据质量 -> 准确性、完整性、一致性、可解释性、可靠性、时效性
- 数据清洗 -> 补全缺失值,修改不正确的数据,清除噪音数据和范围外的数据
- 数据整合 -> 从不同的数据源收集数据
- 数据变换 -> 标准化、聚合、类型变换
- 数据简化 -> 特征选择、采样
- 互联网隐私
- 隐私保护
第七节
- 云计算
- 弹性服务器
- 根据使用量计费
- 并行计算
- 任务拆分
- 数据挖掘宏观概念
- 数据
- 模型
- 高性能的运算
- 客户的努力