统计之都海外沙龙第23期

2016 年 07 月 01 日

嘉宾:郝涵(宾州州立大学博士)

话题:剧透两个天才少年: 莫扎特和柯洁

查看视频→


统计之都海外沙龙第22期

2016 年 06 月 24 日

嘉宾:宋曦(芝加哥大学社会学系助理教授)

话题:统计方法在社会科学研究中的应用

查看视频→


统计之都海外沙龙第21期

2016 年 06 月 09 日

嘉宾:林荟(杜邦公司商业数据科学家)

话题:数据整合操作和建模辅助技术(1)

本次沙龙将介绍一些经常用到的有效数据整合方法,和R中可以实现这些整合的函数(base包[apply()]、plyr包[ddply()],reshape2包,和tidyr包)。

此外嘉宾还将介绍一些非常重要的建模辅助技术和概念(由于时间关系,这部分只能讲一半):

  • 误差及其来源 系统误差和随机误差 应变量误差 自变量误差
  • 数据划分和再抽样 划分训练集和测试集:按照结果变量划分数据,按照自变量划分,按时间序列划分、重抽样:交叉校验,Bootstrap
  • 评估模型表现 回归模型表现度量 分类模型表现度量

查看视频→


统计之都海外沙龙第20期

2016 年 06 月 03 日

嘉宾:林荟(杜邦公司商业数据科学家)

演讲摘要

本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原 始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行 恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这 一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。

在实际分析项目中,通常需要经历的数据预处理流程:

  1. 检查数据:变量分布,是不是存在错误的观测
  2. 缺失值填补:了解缺失原因,选择填补方式
  3. 数据变换:取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换
  4. 检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合
  5. 稀疏变量:查找并且删除稀疏变量
  6. 编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量

查看视频→


统计之都海外沙龙第19期

2016 年 05 月 20 日

嘉宾: 左辰 (Amazon-Audible)

话题:Generalize K-means: the MAD-Bayes Algorithm

查看视频→


统计之都海外沙龙第18期

2016 年 05 月 13 日

嘉宾: 焦静 (佛罗里达大学博士生)

话题:谈谈学术界人际关系的处理

查看视频→


统计之都海外沙龙第17期

2016 年 05 月 06 日

徐梦语(芝加哥大学博士):高维数据的L_2检验

查看视频→


统计之都海外沙龙第16期

2016 年 04 月 29 日

焦静(佛罗里达大学博士生):基督教与我的科研生活

吴刚(辛辛那提大学医学院生理系博士后):我所了解的生物钟 跳到这段

查看视频→


统计之都海外沙龙第15期

2016 年 04 月 22 日

秦旭(芝加哥大学博士生):causal mediation analysis (通常译为因果中介分析)——关于传统方法和前沿方法的简介。

王婷(俄亥俄州立大学博士后):如何把经济测量里的structural change test 应用到心理学里的measurement invariance检测。跳到这段

查看视频→


统计之都海外沙龙第14期

2016 年 04 月 15 日

杨金良(UC Davis博士后):我对深度学习的一点浅度学习

王学枫(纽约石溪大学副教授):浅谈机器学习与生物大数据。跳到这段

查看视频→