数据分析与R语言应用课程介绍
课程介绍
- 课程内容
本课程是在概率统计、社会统计与定量研究方法等课程的基础上,介绍高级数据分析技术的原理,同时以R语言为分析工具,介绍相关技术的操作。通过本课程的学习帮助学生掌握R语言软件的基本操作,初步了解广义线性模型、多层线性模型、结构方程、因果推断等相关分析技术。 - 课程目标
- 熟悉R语言的软件平台,了解基本操作,包括获取导入数据、绘制统计图形。
- 了解R语言中数据的基本管理与数据清洗操作。
- 介绍一般统计方法的操作,包括多元线性回归、logistic回归、因子分析等。
- 介绍高级统计方法的基本原理和操作,包括广义线性模型、多层线性模型、结构方程、因果推断等。
- 熟悉R语言的软件平台,了解基本操作,包括获取导入数据、绘制统计图形。
课程计划
- 课程介绍
- 统计软件介绍R
- 多元回归模型
- Logistic回归
- 广义线性模型
- 调节效应、中介效应与结构方程
- 多层次模型(optional)
- 大数据收集与机器学习应用介绍(optional)
Note:课程计划会根据课程进度,适度调整。
课程考核
- 考核登记方式:百分制
- 成绩组成:平时考勤占30%;期末论文汇报:20%;期末论文:50%
- 考核标准:平时考勤基础分30分,无故旷课一次扣5分,六次无故旷课记0分,课前请假不扣分。期末论文汇报20分。期末论文占50分。
- 时间要求:最后一次课进行课程论文报告并同时提交课程论文。
- 课外学习内容:预习复习课程内容,阅读学习材料,学习相关软件的操作,完成练习,准备数据,进行数据分析,写作课程论文。
课程论文要求
- 论文应具有实质性的研究问题,有明确的观点,观点之间有关联。
- 可以是原创文章,也可以在复制已发表期刊论文基础上形成扩展文章。
- 对于扩展文章,如果认为原文章结论错误,应指明错误的原因。
- 对于文章的复制部分,应解释复制精确度,和原始文章的差距有多大?
- 尽量不要在正文中包括过多的中间过程,简述过程,展示结果。不要把R代码和初始结果直接贴在文章中!!!
- 复制之后,探索改进原始文章的结果呈现。在不改变原文理论假设和模型的前提下,寻找有用信息。(改善odds ratio的解释等)
- 建模前,进行充分的探索性分析,用简单、直观的方式展示有意义的探索性分析结果(图或者表)
- 尝试不同的定量方法,改进原文的模型,试试看能否得到相似结果或不一样的结论。(缺失数据的处理、选择性偏误、遗漏变量偏差、模型设定、添加控制变量、改换效度更高的变量、扩展时间序列、进行样本外检验、采用更合适的统计模型等)
- 如果得到了不一样的结论,用单独一节来叙述,如果结论相似,简略介绍即可。
- 如果你的模型比原文模型更好,那么提供验证的证据,即用原文相同的样本数据或其他的样本外数据检验。(模型的概率假定更合理;95%的因变量数据落在95%的置信区间内;模型对样本外数据的预测效果更好)
论文格式
- 中文宋体小四或英文 Times New Roman 12pt、双倍行距,无封面,左上角装订
- 包括论文题目、姓名、学号
- 参考文献建议按照《公共管理学报》要求
- 中间过程或不重要的细节可以放在附录中
- 明确写出所建立的模型
- 用公式编辑器编辑用到的数学公式,如果会用LaTex排版更好
- 数字保留两位小数或者保留到你认为足够简单清晰的位数
论文图表格式
- 图表应简明扼要,展示论点,不是展示过程,不应过度使用
- 图表应独立设定标题,图表分开标号,下方段落应有文字介绍
- 建议挑出图表中的具体某个数字或信息进行举例,帮助理解
- 表格采用三线表,不要每行每列都添加分隔线
- 表格中有百分数,应在首行标注‘%’,不要每个单元都用。
- 表格中每列数字的小数点应对齐。
- 图表大小应合适,信息量小的图尽量小。
- 可以用图或者表的地方,尽量用图。
最终提交文件
- 电子版: 下列4个文件打包成一个zip或rar文件,文件名是学号+姓名,提交时间:最后一次课后第二天中午12点,成绩以电子版为准!
- 说明文件(如果包括多个数据文件,多个R程序文件等,列明所有的文件内容)
- 数据文件(.csv, .dta, *.xlsx等)
- R语言程序文件(*.R)
- 论文(.doc,.pdf)
- 纸版论文:最后一次课提交。
参考书目与文献
- Kabacoff (王小宁等译)R语言实战(第3版),人民邮电出版社,2023
- Gelman and Hill. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.