数据清洗与可视化作业

Published

October 13, 2025

一、作业目标

  1. 巩固方法理解 —— 将课程中讲到的导入、清洗、转换、重塑、缺失值处理、可视化等操作落到实处;
  2. 锻炼实操能力 —— 用 R 完成数据处理和可视化,从原始数据走到可解释图表;
  3. 思考公共管理应用 —— 在可视化过程中,尝试将分析视角对准公共管理议题,为后续论文选题和设计积累素材。

二、作业内容

A:数据导入与清洗

任务说明

  • 从你感兴趣的一个公开数据集导入数据(可为 CSV、Excel、JSON、数据库等格式)或网页爬取数据,数据规模不必很大,但最好包含缺失值、异常值、字符串 / 数值变量混合等典型“脏数据”情形。

  • 对数据进行以下操作(至少包含以下几项):

    1. 选择变量与观测(删去无关列 / 行)
    2. 变量重编码 / 衍生(例如将分类变量编码、构造新指标、日期处理)
    3. 处理缺失值(删除 / 插补 / 标记等方式)
    4. 异常值检测 / 处理(如去除极端值、Winsorize 处理、箱型图判断等)
    5. 数据重塑 / 重组(例如从宽表变长表、聚合、拆分 / 合并列、分层数据处理)
  • 最终输出一个“干净数据集”的 R 对象 / CSV 文件 + 简要说明:

    • 说明清洗的步骤 / 原因
    • 遇到的挑战与处理思路
    • 对清洗后数据的基本描述(如行数、变量数、缺失率、变量基本统计)

B:可视化与探索性分析

任务说明

  • 基于子任务 A 清洗后的数据,制作 3–5 张可视化图表,类型建议从以下几类中选择:

    1. 基本图表:柱状图、折线图、饼图、直方图、箱型图
    2. 组合图 / 多维图表:如带分组的柱状图、堆叠图、散点图 + 回归线
    3. 时间序列可视化:趋势图、滑动平均线、季节性展示
    4. 地图 / 空间可视化(如果数据具有地理属性,如行政区、经纬度等)
    5. 多变量可视化(可使用 ggplot2 + facets)
  • 给出每张图的 图示标题 / 说明 /解读,指出该图揭示了什么样的规律 / 特征,对于公共管理议题可能的启示是什么。

  • 最后写一段小结,回答以下问题:

    1. 哪张图你最满意?为什么?
    2. 在可视化过程中有没有遇到困难(变量类型不一致、极端值影响、图形美观性调整等)?你是如何调整 / 解决的?
    3. 如果用这些可视化探索的结果做论文选题,你会倾向于哪一类公共管理问题?为什么?

三、作业提交与评估

  • 提交形式:R 脚本文件(.R 或 .Rmd)、清洗后的数据(CSV / RData)和可视化报告(PDF)

  • 评估标准

    • 导入与清洗步骤合理性与完整性:30 分
    • 可视化图表数量、类型多样性、设计美观性:25 分
    • 图表解读与公共管理视角链接:25 分
    • 文档结构、注释、代码清晰程度:10 分
    • 遇到问题描述与解决思路:10 分
  • 提交时间和方式:两周之后,具体见数字化教学平台。