本期内容

嘉宾:林荟(杜邦公司商业数据科学家)

演讲摘要

本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原 始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行 恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这 一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。

在实际分析项目中,通常需要经历的数据预处理流程:

  1. 检查数据:变量分布,是不是存在错误的观测
  2. 缺失值填补:了解缺失原因,选择填补方式
  3. 数据变换:取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换
  4. 检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合
  5. 稀疏变量:查找并且删除稀疏变量
  6. 编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量

关于我们

统计之都(COS,http://cos.name)海外线上沙龙是COS海外会员的线上学习交流活动,每期由一位或多位嘉宾通过视频形式主讲分享,主持人和嘉宾可以通过视频直接互动交流,其他参加沙龙活动的观众可以通过Google+观看直播并以文本形式提问,无法在直播时间看视频的听众也可以随后在Youtube上看重播,国内观众可以在 http://meetup.cos.name 看重播。

本次视频同时会搬运到B站,欢迎前去欢乐弹幕:http://space.bilibili.com/22035559