章节概述

本章围绕数据分析课程的基础运行环境搭建,强调稳定性可复现性。内容首先说明 R 语言RStudio 的功能分工与协作关系,随后按系统类型(Windows/Mac)给出标准化的下载与安装流程,并通过基础测试完成环境可用性验证(Console 输出与版本信息记录)。本章同时整理了编辑器外观与 CRAN 镜像等关键设置,用于提升后续代码运行的一致性与依赖管理的可靠性。

本章学习内容

学习导航

本章学习内容

欢迎开始 第 0 章 的学习。请点击 下方导航卡 进入相应小节:

💡 提示:学习完一个小节后,请再次点击 屏幕右下角的章节主页按钮回到本导航页

1.0 R 与 RStudio

1.0 R 与 RStudio

1.1 R 语言概述

R is the ‘lingua franca’ of data scienceR 是数据科学的通用语言


R 的起源与演进

R 语言由 Ross IhakaRobert Gentleman 于 1990 年代中期在新西兰奥克兰大学共同开发,其名称来源于两人名字的首字母 (Ihaka & Gentleman, 1996)。R 语言脱胎于贝尔实验室经典的 S 语言,并在其基础上进行了开源化重构。

R 不仅仅是一款统计软件,它更代表着一个庞大的开源生态系统。这意味着它完全免费,且全世界优秀的学者都在不断地为其贡献新的功能包,使其功能边界不断拓展。

相较于 SPSS、Stata 或 Excel 等菜单驱动式 (GUI) 软件,R 采用基于代码 (Script-based) 的交互方式。这种工作流能够完整记录数据处理与分析的全过程,从而极大地提升研究的透明度,为应对现代科学面临的“可重复性危机” (Replication Crisis) 提供了关键的技术解决方案。


R语言创始人 Robert 与 Ross

R语言创始人 Robert 与 Ross


R 的主要应用领域

当代的 R 语言已超越单纯统计软件的范畴,演变为一个涵盖数据挖掘、机器学习及自动化报告的全能型数据科学生态系统

1. 学术科研:

  • 计算社会科学 (CSS):文本挖掘、网络舆情分析、社会网络分析 (SNA)

  • 地理数据科学:空间不平等研究、社区隔离分析、人口流动制图

  • 公共卫生与流行病学:生存分析、健康不平等研究、因果推断

  • 数据可视化:基于 ggplot2 制作符合学术期刊标准的图表

2. 业界应用:

  • 数据科学与挖掘:大型互联网企业的用户行为分析、推荐算法、A/B 测试

  • 金融与量化分析:风险建模、量化投资策略、精算分析

  • 智库与商业分析:处理海量调查数据,利用 R Markdown 生成自动化的商业或政策评估报告


新时代的 R:大数据与机器学习

随着技术演进,R 已扩展了处理大规模数据与机器学习的能力,构建了从“清洗”到“建模”的完整工具链:

  • 高效数据处理tidyverse 提供了一套直观、易读的数据清洗语法 (Data Wrangling)data.table 则专用于高效读取和运算 TB 级的大规模数据集,在内存管理上具有极高优势。

  • 机器学习生态

    • 统一框架tidymodels 框架整合了机器学习的完整流程 (数据划分、预处理、训练、评估),是目前最主流的建模范式。
    • 丰富算法库:R 拥有大量高性能的算法包,例如用于随机森林的 rangerrandomForest,用于梯度提升树的 xgboostlightgbm,用于支持向量机 (SVM)e1071kernlab,以及用于聚类分析 (如 K-means、H-means)statsfactoextra 等。
  • 跨语言协作:R 可通过 reticulate 包无缝调用 Python 环境,实现 R 的统计优势与 Python 深度学习框架 (如 PyTorch、TensorFlow) 的强强联合。


R 的核心优势

R 语言之所以能在现如今众多 编程语言统计软件 中脱颖而出,主要得益于以下五个核心优势 (其中第 1 与第 2 点是本课程的基石)

  1. 免费与开源   重要!

    与 SPSS、Stata、SAS 等商业软件相比,R 与 RStudio (免费版) 即可覆盖完整的数据分析工作流,无需购买昂贵的许可证。更重要的是,开源意味着代码的透明度与可追溯性,研究者可以深入理解函数背后的算法逻辑,这在闭源软件中是难以实现的。

  2. 流程可复现   重要!

    借助 R Markdown 或 Quarto 工具,R 能将“数据清洗—统计建模—结果呈现”整合为一份可重复运行的动态文档。这不仅让分析过程透明化,更直接响应了学术界对 可复现性 与开放科学 (Open Science) 的高标准要求。

  3. 卓越的可视化能力

    R 拥有的 ggplot2 绘图系统是目前公认最强大的静态绘图框架之一。它基于“图形语法”理论设计,能够以极高的定制化程度绘制出符合顶刊发表标准 (Publication Quality) 的精美图表,在美学与信息传递效率上远超传统软件。

  4. 庞大的生态与社区支持

    CRAN 官方仓库目前拥有超过 2.3 万 个扩展包,覆盖了从基础统计到最前沿的细分领域。同时,R 拥有极高活跃度的全球社区 (如 Stack Overflow、R-bloggers),这意味着你遇到的绝大多数代码报错,都能在网络上快速找到解决方案。

  5. 学术驱动与前沿性

    由于 R 植根于学术界,许多最新的统计方法与算法 (如因果推断、贝叶斯网络) 往往会第一时间以 R 包的形式发布。这使得 R 用户能够比其他软件用户更早地接触并应用前沿方法解决实际研究问题。


R 还是 Python?

在数据科学领域,两者功能高度重叠,绝大多数任务两者都能完成。主要区别在于侧重点生态惯性

  • Python 的优势

    • 工程落地与通用性:作为通用编程语言,Python 在软件开发、自动化脚本及模型生产部署方面具有天然优势。
    • 深度学习与 AI:它是人工智能领域的首选语言,拥有最完善的深度学习框架 (如 PyTorch、TensorFlow、Keras) 和大语言模型调用接口。
    • 数据获取与爬虫:在网络数据采集方面,Python 拥有最强大的生态 (如 Scrapy、BeautifulSoup、Selenium),特别适合处理大规模、高并发或结构复杂的动态网页抓取任务。
  • R 的优势

    • 统计推断与归因:R 的设计初衷是为了“解释数据”而非单纯“预测未来”。它在计量经济学、因果推断及统计检验方面的严谨性与便捷性远超 Python。
    • 出版级可视化ggplot2 及其衍生包定义了数据可视化的美学标准,能以极低的代码量产出符合学术发表要求的精美图表。
    • 轻量级数据采集:虽然不及 Python 强大,但 R 的 rvest 包能以极简的语法完成大多数静态网页的抓取,对无需大规模工程化的学术研究而言往往已经够用。


R 与 Python

R 与 Python

【学习建议】 社会科学背景的同学建议采取 “R 为主,Python 为辅” 的策略:利用 R 快速进行统计分析与可视化,利用 Python 补充深度学习与大模型应用能力。


1.2 认识 RStudio

什么是 RStudio?

RStudio 是 R 语言的 集成开发环境 (IDE),由 Posit PBC (原 RStudio 公司) 开发。它将代码编写、执行、调试及结果展示整合在一个统一的界面中,极大地提升了工作效率。

尽管 Posit 提供商业服务,但其面向公众的 RStudio Desktop (开源版)完全免费 的。该版本功能完整、无使用限制,是目前学术界与业界最主流的 R 工作环境。


R 与 RStudio 的协作机制

  • 依赖关系
    RStudio 无法独立运行,必须先安装 R
  • 直观类比
    如果把 R 语言比作汽车的 引擎 ,那么 RStudio 就是 仪表盘与操纵杆
  • 工作流程
    在 RStudio 中编写指令 \(\rightarrow\) 发送给底层的 R 引擎执行 \(\rightarrow\) R 将计算结果返回 RStudio 界面进行展示


R 与 RStudio关系比喻图

R 与 RStudio关系比喻图


为什么选择 RStudio?

核心优势

原生的 R (如 R GUI) 虽然能运行代码,但其代码窗口、绘图窗口与帮助文档是相互独立的,导致交互体验较为割裂,不利于新手建立清晰的工作流。

RStudio 将这些核心功能整合为标准的 “四象限” 界面 (后续章节将详细拆解),提供了极佳的项目管理与写作支持 :

  • Source (代码编辑区):编写脚本、笔记与文档 (包括本课程核心的 R Markdown)
  • Console (控制台):交互式执行代码,即时查看运行结果或报错信息。
  • Environment (环境面板):可视化管理当前会话中的数据集、变量与对象。
  • Files / Plots / Packages (辅助面板):管理项目文件、预览图形输出以及安装/更新扩展包。

注意 本课程后续所有课堂演示、作业与考核将统一在 RStudio 环境中完成。

本课程将只使用 R Studio

本课程将只使用 R Studio

2.0 软件下载

2.1 下载 R 语言 与 Rstudio

请先选择系统

R 语言下载安装导航

请选择操作系统以进入对应的安装教程

💡 提示:如需切换系统教程,请返回本页签并重新选择对应系统

Windows 系统

下载 R语言

官方地址:https://cran.rstudio.com/bin/windows (建议右键在新标签页中打开链接)

操作步骤

Step 1 点击 Install R for the first time

Windows系统下载 R 步骤 1

Windows系统下载 R 步骤 1

Step 2 点击 Download R-4.5.2 for Windows

Windows系统下载 R 步骤 2

Windows系统下载 R 步骤 2


下载 RStudio

注意:需要 64 位操作系统; 建议下载最新版!

RStudio下载步骤

RStudio下载步骤


MacOS 系统

下载 R语言

官方地址:https://cran.rstudio.com/bin/macosx (建议右键在新标签页中打开链接)

操作步骤

Step 1 点击 R-4.5.2-arm64.pkg(M1/M2/M3芯片)R-4.5.2-x86_64.pkg(Intel芯片)

MacOS系统下载 R 步骤

MacOS系统下载 R 步骤


下载 RStudio

注意:根据mac电脑的芯片选择版本;建议下载最新版本!


3.0 软件安装

3.0 软件安装

3.1 安装 R 语言 与 RStudio

请先选择系统

R 语言安装导航

请选择操作系统以进入对应的安装教程

💡 提示:如需切换系统教程,请返回本页签并重新选择对应系统


Windows 系统

安装 R语言

详细步骤(参考 Step 1 - 9)

R语言 安装完成后 请继续安装 RStudio


Step 1
R语言 Windows安装步骤 1

R语言 Windows安装步骤 1

Step 2
R语言 Windows安装步骤 2

R语言 Windows安装步骤 2

Step 3
R语言 Windows安装步骤 3

R语言 Windows安装步骤 3

Step 4
R语言 Windows安装步骤 4

R语言 Windows安装步骤 4

Step 5
R语言 Windows安装步骤 5

R语言 Windows安装步骤 5

Step 6
R语言 Windows安装步骤 6

R语言 Windows安装步骤 6

Step 7
R语言 Windows安装步骤 7

R语言 Windows安装步骤 7

Step 8
R语言 Windows安装步骤 8

R语言 Windows安装步骤 8

Step 9
R语言 Windows安装步骤 9

R语言 Windows安装步骤 9


安装 RStudio

详细步骤(参考 Step 1 - 5)

RStudio 安装完成后 即可进入下一节的学习


Step 1
RStudio Windows安装步骤 1

RStudio Windows安装步骤 1


Step 2
RStudio Windows安装步骤 2

RStudio Windows安装步骤 2

Step 3
RStudio Windows安装步骤 3

RStudio Windows安装步骤 3

Step 4
RStudio Windows安装步骤 4

RStudio Windows安装步骤 4

Step 5
RStudio Windows安装步骤 5

RStudio Windows安装步骤 5


MacOS 系统

安装 R语言

详细步骤(参考 Step 1 - 9)

R语言 安装完成后 请继续安装 RStudio


Step 1
R语言 MacOS安装步骤 1

R语言 MacOS安装步骤 1

Step 2
R语言 MacOS安装步骤 2

R语言 MacOS安装步骤 2

Step 3
R语言 MacOS安装步骤 3

R语言 MacOS安装步骤 3

Step 4
R语言 MacOS安装步骤 4

R语言 MacOS安装步骤 4

Step 5
R语言 MacOS安装步骤 5

R语言 MacOS安装步骤 5


安装 RStudio

详细步骤(参考 Step 1 - 2)

RStudio 安装完成后 即可进入下一节的学习


Step 1
RStudio MacOS安装步骤 1

RStudio MacOS安装步骤 1

Step 2
RStudio MacOS安装步骤 2

RStudio MacOS安装步骤 2

4.0 软件测试

4.0 软件测试

在完成 R 与 RStudio 安装后,可通过三项基础测试验证运行环境是否正常,包括控制台交互、基本输出与版本信息记录。

第一步:定位控制台(Console)

打开 RStudio,定位 Console 面板(通常位于左下角)。面板中的提示符 > 表示 R 处于可交互状态,可接收并执行指令。

第二步:执行基础输出(Hello World)

在提示符 > 后输入以下代码并按回车执行:

print("Hello World")
[1] "Hello World"

若环境配置正常,Console 将返回 "Hello World"

常见问题:输入法与中文标点

R 代码需使用英文标点符号。中文输入法状态下可能输入中文括号与引号,从而触发语法错误。建议切换至英文输入模式(EN)后再输入代码。

print(“Hello World”)(中文括号与引号)
print("Hello World")(英文括号与引号)

Figure 0.30. 打开RStudio后的界面 以及测试

Figure 0.30. 打开RStudio后的界面 以及测试

第三步:确认版本信息

推荐

请运行以下代码,记录显示的版本号:

sessionInfo()
R version 4.5.2 (2025-10-31)
Platform: aarch64-apple-darwin20
Running under: macOS Tahoe 26.2

Matrix products: default
BLAS:   /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.5-arm64/Resources/lib/libRlapack.dylib;  LAPACK version 3.12.1

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

time zone: Asia/Shanghai
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] kableExtra_1.4.0  knitr_1.50        fontawesome_0.5.3

loaded via a namespace (and not attached):
 [1] svglite_2.2.2      cli_3.6.5          rlang_1.1.7        xfun_0.56         
 [5] stringi_1.8.7      textshaping_1.0.4  jsonlite_2.0.0     glue_1.8.0        
 [9] htmltools_0.5.8.1  sass_0.4.10        scales_1.4.0       rmarkdown_2.30    
[13] evaluate_1.0.5     jquerylib_0.1.4    fastmap_1.2.0      yaml_2.3.10       
[17] lifecycle_1.0.5    stringr_1.6.0      compiler_4.5.2     RColorBrewer_1.1-3
[21] rstudioapi_0.17.1  systemfonts_1.3.1  farver_2.1.2       digest_0.6.39     
[25] viridisLite_0.4.2  R6_2.6.1           magrittr_2.0.4     bslib_0.9.0       
[29] tools_4.5.2        xml2_1.5.1         cachem_1.1.0      

5.0 自定义设置

5.0 环境自定义

为提升后续编程实践的可读性与运行稳定性,建议在进入课程内容前完成两项基础环境配置:
(1) 编辑器外观与字体,以及 (2) CRAN 下载镜像设置(软件包仓库)


5.1 外观与编辑体验设置

RStudio 的默认外观参数(如编辑器字号 10pt在长时间阅读与编码场景下可能不利于文本辨识与持续输入。对编辑器字号与主题进行基础调整,可提升代码阅读清晰度与交互体验的一致性。

在顶部菜单依次进入 Tools(工具)Global Options…(全局选项),在设置面板中完成以下配置:

  • Editor font size(字号)
    建议设置为 11–13(可结合屏幕尺寸与阅读距离微调)
  • Editor theme(主题)
    可根据环境光线选择:
    • 浅色主题Textmate(白底黑字)
    • 深色主题Tomorrow Night 80sDracula(深色背景)

设置完成后点击 Apply(应用) 预览效果,确认后点击 OK(确定) 保存。

Figure 0.31. 工具 - 全局设置 - 外观设置建议

Figure 0.31. 工具 - 全局设置 - 外观设置建议

5.2 下载地址自定义:CRAN 镜像设置

后续章节涉及 R 包的安装与更新,需从 CRAN 获取资源。若默认仓库位于境外,可能出现下载速度较慢或连接不稳定。将 CRAN 仓库切换至国内镜像可提升下载效率与连接稳定性。

在顶部菜单依次进入 Tools(工具)Global Options…(全局选项),按以下路径完成设置:

  1. 左侧选择 Packages(包)
  2. Primary CRAN repository(主要 CRAN 仓库) 处点击 Change…(更改…)
  3. 在列表中选择 China(国内镜像),点击 OK(确定) 保存

镜像列表中以 China 开头的条目均可使用;可根据网络条件选择响应更快的镜像站点(通常选择地理位置更近者)

Figure 0.31. 工具 - 全局设置 - 外观设置建议

Figure 0.31. 工具 - 全局设置 - 外观设置建议

5.3 更多个性化设置(供参考)

可选 以下资源用于进一步了解 RStudio 的界面与编辑体验配置(不要求掌握;按需查阅)

官方文档(建议优先参考)

快捷键速查(提高操作效率)

主题资源库(更多配色方案)

中文参考(按需)