章节概述
本章聚焦人口普查数据分析与地理人口特征分类。专题研究
1 使用美国 ACS 数据,在全国县级尺度上构建一个基础版的地理人口特征分类,展示如何从人口与社会经济变量出发识别区域类型。专题研究
2 进一步转向纽约市 census tract
尺度,在更细颗粒度上整合人口、社会经济、住房与通勤等多维变量,识别城市内部街区之间的社会空间差异。
方法层面,本章主要涉及人口普查数据获取、变量重构与比例指标计算、相关性检验、主成分分析(PCA)、变量筛选、K-means 与 H-K-means 聚类分析,以及聚类结果的空间制图、指数热力图与类型解释等关键方法。
本章学习内容
欢迎开始 第 7 章 的学习。请点击 下方导航卡 进入相应小节:
本章节导论
研究框架
专题研究 1
实战案例
总结与反思
专题研究 1
专题研究 2
实战案例
总结与反思
专题研究 2
章节练习
本章练习
💡 提示:学习完一个小节后,请再次点击 屏幕右下角的章节主页按钮回到本导航页
© 华东师范大学 社会发展学院 人口研究所 | DAWN 研究组 | yzliu@soci.ecnu.edu.cn
课程负责人:刘贇喆 本章作者:刘贇喆 | 温敏
最后更新:2026年05月05日 构建环境:R version 4.5.2 (2025-10-31)
基本概念
人口普查数据(census
data)是指由国家统计机构在特定时点,对全国或特定行政范围内的人口、住户及其社会经济特征进行系统登记与统计后形成的数据。其核心目标在于刻画一个国家或地区人口的规模、结构、分布与居住特征,并为公共治理、资源配置与社会研究提供基础性证据。
人口普查数据通常具有三个突出特征。第一,它具有较强的覆盖性,统计对象通常面向全国人口或全体住户,而不是抽样意义上的局部样本。第二,它具有明确的空间对应性,往往可以匹配到不同层级的行政区或统计区。第三,它具有较强的多维性,包含丰富的人口与社会属性变量,因此特别适合用于区域差异分析与社会空间研究。
人口普查中常见的统计主题包括但不限于年龄(age)、性别(sex)、受教育程度(educational attainment)、职业(occupation)、住房条件(housing)、民族或族裔(ethnicity)、迁移状况(migration)以及家庭结构(household structure)等。
从研究应用看,人口普查数据的价值并不只在于提供人口总量等宏观信息,更在于其能够被进一步细化为一组可比较的结构性指标,以刻画不同地区的社会经济与居住特征。
例如,可基于年龄结构(age structure)、家庭类型(household type)、住房占有方式(housing tenure)、就业状态(employment status)、受教育水平(educational attainment)、通勤方式(commuting mode)等变量,构建反映地区社会结构差异的指标体系。
这样的处理方式既是后续地理人口统计特征分类(geodemographics)的重要基础,也为下一章节的综合指数构建(composite index)提供了关键的数据来源与变量支撑。
Figure 1. 简化版人口普查流程示意图
国际对比
不同国家的人口普查制度与数据发布口径并不完全一致,但总体上都由官方统计机构负责组织、汇总与发布。对于人口社会空间分析而言,较常见的案例包括美国、英国与中国。三者在数据获取方式、统计时点、空间单元体系与公开粒度(即,可公开的最小地理单元尺度)上均存在一定差异,因此在使用时需要特别留意年份口径、空间边界与变量定义的一致性。
美国(United States)
美国人口普查数据主要由 U.S. Census Bureau
发布。研究中最常用的两类数据,一类是十年一次的人口普查(Decennial
Census),主要提供较完整的人口计数与基础人口特征;另一类则是当前更为常用的
American Community Survey(ACS)。ACS
并非传统意义上的整体现时点普查,而是一项持续开展的滚动抽样调查,并按年发布估计结果。
ACS 常见产品包括 1-year estimates 与 5-year
estimates。二者的差异不仅体现在可发布的空间尺度上,也体现在估计所依据的时间窗口与统计稳定性上。前者基于
12
个月的数据汇总而成,时效性更强,更适合观察较新的社会经济变化;后者基于
60
个月的数据汇总而成,样本量更大,统计稳定性通常更强,也因此能够支持更小尺度地理单元的估计。但需要注意的是,5-year
estimates
反映的是一个五年时期内的综合特征,而不是某一单独年份的即时状态,因此
1-year estimates 与 5-year
estimates 不宜直接进行横向比较。
美国人口普查常用的地理统计单元由细到粗通常包括 block group、census
tract、county 与 state。在社会经济结构分析与地理人口统计研究中,较常使用的尺度通常为
block group 或
census tract。官方平台通常支持表格检索、下载、地图浏览与
API 访问。
英国(United Kingdom)
英国人口普查具有较长的制度延续性。就英格兰和威尔士而言,人口普查自
1801 年起通常每 10
年开展一次,1941
年因二战未进行。当前英国人口普查数据的发布主要可通过 Office for National Statistics(ONS)
获取;不过需要注意,英国并非所有地区都由同一统计机构负责,其中英格兰与威尔士主要由
ONS 统筹,北爱尔兰由 NISRA(Northern Ireland Statistics and Research
Agency)负责,苏格兰则由 Scotland’s Census /
National Records of Scotland负责。
英国人口普查常用的地理统计单元由细到粗通常包括 Output Area(OA)、Lower layer Super Output Area(LSOA)、Middle layer Super
Output Area(MSOA) 与 local
authority。这一分层体系使人口普查数据能够较方便地与边界文件结合,并支持不同尺度的社会空间分析。
官方入口:ONS Census;Census 2021 geographies;Statistical geographies
Figure 2. 英国2021人口普查问题节选图
中国(China)
中国人口普查数据主要由国家统计局发布。新中国成立以来,我国已分别于
1953 年、1964 年、1982
年、1990 年、2000
年、2010 年和 2020
年开展了七次全国人口普查;现行制度下,人口普查通常每 10 年开展一次。当前研究中最常引用的是第七次全国人口普查相关公报、主要数据资料与《中国人口普查年鉴-2020》。
第七次全国人口普查的标准时点为 2020 年 11 月 1
日零时。其主要内容涵盖人口数量、结构、分布、城乡住房以及性别、年龄、民族、受教育程度、行业、职业、迁移流动、婚姻生育等信息。与前文美国的
ACS
或英国的小区域普查表不同,中国人口普查更常见的公开资料形式是公报、年鉴与汇总表。其中,国家统计局发布的《中国人口普查年鉴-2020》主要包括全部人口数据、长表数据与附录等部分,其中长表数据更多反映人口的各类结构性特征。
从公开结果的组织层级来看,中国人口普查数据通常由细到粗涉及乡镇/街道、县级、地级、省级与全国等行政层级;但在公开可获得性上,研究中更常稳定使用的是县级及以上尺度的数据。与美国和英国相比,中国公开可直接获取的精细化小区域人口普查数据相对有限,尤其是在县级以下统一、标准化、可直接下载的空间单元层面,可得性通常较弱。
Figure 3. 中国第六次人口普查短表示意图
常见的人口普查变量
人口普查数据的内容通常具有明显的层级组织特征。概括而言,可将其理解为从概念层到领域层再到变量层的逐级展开。所谓概念(concepts),是指较高层次的社会人口主题,如人口结构(demographic
structure)、社会经济特征(socioeconomic characteristics)或住房与居住状况(housing and
living
conditions);在每一个概念之下,又可以进一步细分为若干领域(domains),例如年龄、性别、教育、就业或住房占有方式;而每一个领域内部,还会包含更具体的变量(variables),如 0–4
岁、5–9 岁、10–14
岁等年龄分组,或自有住房、社会租赁、私人租赁等住房类别。
换言之,人口普查并不是简单提供若干零散变量,而是围绕若干主题,形成从宏观主题到具体分类项的系统化统计框架。这种层级式组织方式,一方面有助于从整体上把握地区人口社会特征,另一方面也为后续的变量筛选、指标构建与聚类分析提供了基础。
注意: 这里的 concept 可以同义替换为 theme / topic 等
以英国 Census 2021 为例,ONS 将 England and Wales 的topic summaries组织为若干主题组。官方页面列出 9 个主题组。
从分析实践看,不同国家的人口普查虽然在发布平台、主题名称与表格结构上存在差异,但其核心内容通常都围绕若干相对稳定的领域展开。例如,人口学领域常涉及年龄、性别、婚姻与家庭结构;社会经济领域常涉及教育、职业、就业状态与行业;住房领域常涉及住房类型、住房占有方式与拥挤程度;迁移与流动领域则可能涉及出生地、迁居、国籍或通勤方式等。
Figure 4. 人口普查数据层级概念
人口普查原始表格通常以计数值(counts)为主,而不会直接提供适合聚类分析的比例指标(percentages)、密度指标(densities)或标准化指标(standardised measures)。
因此,在后续分析中,研究者通常需要根据研究目标,对原始计数进一步处理。例如,可将某一类别人数除以总人口,得到结构比例;将人口数除以面积,得到人口密度;或在多变量比较中进一步进行标准化处理。
基本概念
“an analysis of people by where they live” - (Sleight, 1996)
地理人口特征(geodemographics)或 地理人口特征分类法(geodemographic
classification)通常是指:基于小区域的人口、社会、经济与居住特征,将具有相似属性的地理单元归并为若干类型,从而形成一种邻里类型学(neighbourhood
typology)或区域分类体系(area
classification)。它并不是对单个个体进行分类,而是对地区进行分类;其基本出发点在于,不同地区的人口社会结构、居住条件与生活方式往往存在相对稳定的空间差异。
底层逻辑:‘物以类聚,人以群分’ - 居住在同一邻里的人群往往具有类似的多维属性
地理人口特征分类 通常以小区域数据为基础,围绕地区的多维城市背景特征,选取人口、社会、经济、住房等多个变量,对空间单元进行聚类分析,并在结果基础上进一步开展类别解释与命名。其最终产出通常不是连续型数值,而是若干离散型组别。这些组别往往具有较强的解释性,其命名通常并非随意设定,而是依据该类地区在多维属性中最突出的结构特征加以概括,例如
“高龄社区”、“多族裔城市租住区” 或
“郊区家庭型社区” 等。
这类分类结果的意义,在于将原本维度较多、较分散的普查变量压缩为更易解释、也更适合比较的区域类型,从而为城市邻里差异、社会空间分异与区域类型识别提供一种多维度的分析视角。
注:小区域 往往是指街道、邻里等地理单元
(常见如美国的census tract及以下、英国的 LSOA及以下单元)
Figure 5. Esri Tapestry 分类 1B 人群肖像
多维度方法
在社会空间研究中,单一变量方法往往只能揭示地区特征的某一个侧面。例如,仅用老年人口占比,只能描述年龄结构;仅用住房占有方式(housing
tenure),也只能反映居住制度的一部分。即便在多元模型中,城市背景变量通常也仍然被拆解为若干相对独立的解释项,分别考察其边际影响。这样的做法有其明确用途,但对于理解城市邻里作为整体情境的内部结构而言,往往仍然是不充分的。
地理人口特征分类 所代表的,正是一种更偏向情境化(contextual)的分析思路。在这一思路下,邻里并不被视为若干彼此孤立变量的机械组合,而更像是一组相互交织、难以完全拆分的属性束。例如,财富、教育程度、住房成本、家庭结构与就业特征在现实城市空间中往往高度缠绕,其意义并不总能通过单独考察某一个变量而被充分理解。相较之下,地理人口特征分类
更关注的是地区在属性组合上的整体差异,而不是某一个单独变量上的增减变化。
这一多维方法的优势主要体现在两个方面。第一,它能够将人口结构、社会经济特征、住房状况、就业特征与迁移流动等多个维度结合起来,从整体上识别不同地区之间的相似性与差异性,因此所得结果更接近于一种综合社会画像,而不是单指标的局部刻画。第二,它能够将高维变量压缩为较易解释的类别结构,从而更便于制图展示、区域比较与结果沟通。
相关研究还指出(Singleton & Spielman, 2004),当小区域人口与社会经济变量本身存在较大估计误差(margin of error)时,情境化方法相较于逐变量分析可能具有额外优势。这一点在美国邻里尺度的 ACS 数据中尤为典型:当单一变量的测量并不十分精确时,将邻里理解为多属性组合并进行整体分类,有时比逐一解释单个变量更稳健。
发展脉络
从历史渊源看,geodemographics 的早期雏形可追溯到
19
世纪末的城市社会调查与社会制图实践。其中最具代表性的案例之一,是
Charles Booth
对伦敦贫困问题的系统调查及其著名的 London Poverty
Maps。在 Booth 于 1886–1903 年开展的 Inquiry
into Life and Labour in London
中,研究团队以街道为单位,对居民的收入与社会阶层进行分类,并通过不同颜色在地图上展示伦敦内部的贫困与富裕分布。这一工作虽然尚不属于现代意义上的
地理人口特征分类,但其核心思想已经体现出一个重要特征:即通过对小区域人口社会特征的归纳与制图,识别城市内部的社会空间差异。