本期内容

嘉宾:林荟(杜邦公司商业数据科学家)

话题:数据整合操作和建模辅助技术(1)

本次沙龙将介绍一些经常用到的有效数据整合方法,和R中可以实现这些整合的函数(base包[apply()]、plyr包[ddply()],reshape2包,和tidyr包)。

此外嘉宾还将介绍一些非常重要的建模辅助技术和概念(由于时间关系,这部分只能讲一半):

  • 误差及其来源 系统误差和随机误差 应变量误差 自变量误差
  • 数据划分和再抽样 划分训练集和测试集:按照结果变量划分数据,按照自变量划分,按时间序列划分、重抽样:交叉校验,Bootstrap
  • 评估模型表现 回归模型表现度量 分类模型表现度量

关于我们

统计之都(COS,http://cos.name)海外线上沙龙是COS海外会员的线上学习交流活动,每期由一位或多位嘉宾通过视频形式主讲分享,主持人和嘉宾可以通过视频直接互动交流,其他参加沙龙活动的观众可以通过Google+观看直播并以文本形式提问,无法在直播时间看视频的听众也可以随后在Youtube上看重播,国内观众可以在 http://meetup.cos.name 看重播。

本次视频同时会搬运到B站,欢迎前去欢乐弹幕:http://space.bilibili.com/22035559