数据清洗与可视化作业
一、作业目标
- 巩固方法理解 —— 将课程中讲到的导入、清洗、转换、重塑、缺失值处理、可视化等操作落到实处;
- 锻炼实操能力 —— 用 R 完成数据处理和可视化,从原始数据走到可解释图表;
- 思考公共管理应用 —— 在可视化过程中,尝试将分析视角对准公共管理议题,为后续论文选题和设计积累素材。
二、作业内容
A:数据导入与清洗
任务说明
从你感兴趣的一个公开数据集导入数据(可为 CSV、Excel、JSON、数据库等格式)或网页爬取数据,数据规模不必很大,但最好包含缺失值、异常值、字符串 / 数值变量混合等典型“脏数据”情形。
对数据进行以下操作(至少包含以下几项):
- 选择变量与观测(删去无关列 / 行)
- 变量重编码 / 衍生(例如将分类变量编码、构造新指标、日期处理)
- 处理缺失值(删除 / 插补 / 标记等方式)
- 异常值检测 / 处理(如去除极端值、Winsorize 处理、箱型图判断等)
- 数据重塑 / 重组(例如从宽表变长表、聚合、拆分 / 合并列、分层数据处理)
最终输出一个“干净数据集”的 R 对象 / CSV 文件 + 简要说明:
- 说明清洗的步骤 / 原因
- 遇到的挑战与处理思路
- 对清洗后数据的基本描述(如行数、变量数、缺失率、变量基本统计)
B:可视化与探索性分析
任务说明
基于子任务 A 清洗后的数据,制作 3–5 张可视化图表,类型建议从以下几类中选择:
- 基本图表:柱状图、折线图、饼图、直方图、箱型图
- 组合图 / 多维图表:如带分组的柱状图、堆叠图、散点图 + 回归线
- 时间序列可视化:趋势图、滑动平均线、季节性展示
- 地图 / 空间可视化(如果数据具有地理属性,如行政区、经纬度等)
- 多变量可视化(可使用 ggplot2 + facets)
给出每张图的 图示标题 / 说明 /解读,指出该图揭示了什么样的规律 / 特征,对于公共管理议题可能的启示是什么。
最后写一段小结,回答以下问题:
- 哪张图你最满意?为什么?
- 在可视化过程中有没有遇到困难(变量类型不一致、极端值影响、图形美观性调整等)?你是如何调整 / 解决的?
- 如果用这些可视化探索的结果做论文选题,你会倾向于哪一类公共管理问题?为什么?
三、作业提交与评估
提交形式:R 脚本文件(.R 或 .Rmd)、清洗后的数据(CSV / RData)和可视化报告(PDF)
评估标准:
- 导入与清洗步骤合理性与完整性:30 分
- 可视化图表数量、类型多样性、设计美观性:25 分
- 图表解读与公共管理视角链接:25 分
- 文档结构、注释、代码清晰程度:10 分
- 遇到问题描述与解决思路:10 分
提交时间和方式:两周之后,具体见数字化教学平台。