嘉宾:林荟(杜邦公司商业数据科学家)
本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原 始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行 恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这 一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。
在实际分析项目中,通常需要经历的数据预处理流程:
统计之都(COS,http://cos.name)海外线上沙龙是COS海外会员的线上学习交流活动,每期由一位或多位嘉宾通过视频形式主讲分享,主持人和嘉宾可以通过视频直接互动交流,其他参加沙龙活动的观众可以通过Google+观看直播并以文本形式提问,无法在直播时间看视频的听众也可以随后在Youtube上看重播,国内观众可以在 http://meetup.cos.name 看重播。
本次视频同时会搬运到B站,欢迎前去欢乐弹幕:http://space.bilibili.com/22035559