嘉宾:林荟(杜邦公司商业数据科学家)
话题:数据整合操作和建模辅助技术(1)
本次沙龙将介绍一些经常用到的有效数据整合方法,和R中可以实现这些整合的函数(base包[apply()]、plyr包[ddply()],reshape2包,和tidyr包)。
此外嘉宾还将介绍一些非常重要的建模辅助技术和概念(由于时间关系,这部分只能讲一半):
嘉宾:林荟(杜邦公司商业数据科学家)
本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原 始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行 恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这 一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。
在实际分析项目中,通常需要经历的数据预处理流程:
徐梦语(芝加哥大学博士):高维数据的L_2检验