王东
Published on 2025-02-28 / 4 Visits

【AI100问(111)】人工智能如何预测人口数量?

人口普查对一个国家宏观政策的制定有重要意义。一般来说,人口普查需要调动大量社会资源,耗时耗力。因此,正常情况下,普查的频度不会很高,一般每隔十年一次。以我国为例,自新中国建国以来,共进行了七次人口普查,近40年来基本是逢十的年头普查一次。最近一次普查是在2020年。

然而,每十年一次的频度实在是太低了。随着社会发展越来越快,一次普查的数据可能在五六年后就不适用了。为了解决这一问题,人口学家们想到了人工智能,通过观测一些辅助信息对前一次普查结果进行实时修正。这些辅助信息包括水电消耗、电话和网络流量、医院和学校的数量等。方法也很简单,将这些辅助变量作为输入,将当地的人口数作为输出,训练一个预测模型,即可基于该模型对人口数量进行预测。然而,这些信息通常是一个国家的保密数据,无法广泛获得。

近年来,人们想到利用卫星图片来预测人口。如下图所示,卫星拍摄的图片中包含房子密度、车辆多少,道路情况等,这些都是和人口密切相关的指标。将这些信息收集起来,即可训练一个人口预测模型。可是,对房子和汽车进行计数通常需要人为标记,还是太麻烦了。2022年3月,来自英国爱丁堡大学的科学家们在自然-科学报告杂志发表了一种更为简便的方法,不需要对图片进行人为标记也可以训练预测模型。

他们的做法如下图所示。首先用一个大规模图片库训练一个通用的目标识别模型,将这一模型去掉分类层,只留下主干,专门用来对图片做特征提取,称为预训练编码器。同时,在一些指定区域做“微普查”,即对这些区域进行入户调查。将这些区域的卫星图片送入前述预训练编码器中,提取出图片中的显著特征。将这些特征和对应的人口调查结果作为训练数据,即可训练出一个人口预测模型。基于这一模型,即可对更大范围的人口数进行预测。

在爱丁堡大学的这篇文章中,作者利用解析度为50厘米的高清卫星图片对莫桑比克的两个地区进行了研究。他们对这两个区的3011处住宅进行了调研,其中1334处住宅有人居住,居住人口为4901人。他们将这些区域划为100 x 100的网格,每个网络对应一个训练样本点。经过后处理后,他们一共得到199个可用的样本点。基于这些数据,他们训练了一个称为“随机森林”的预测模型,得到了不错的预测精度。

通过对预测模型做进一步分析,可以看到,这一模型将注意力更多地放在了卫星图片中的房子、汽车、街道等处。这说明虽然我们并没有告诉模型这些事情更重要,模型依然自己找到了这些“秘密”。特别是,这里的预训练编码器是通过一个完全无关的数据集(ImageNet)在一个完全无关的任务(目标分类)上训练出来的,却可以在卫星图片上直接应用。这似乎意味着人类视觉在不同环境、不同任务上的某种一致性。

参考文献:

[1]Neal, I., Seth, S., Watmough, G. et al. Census-independent population estimation using representation learning. Sci Rep 12, 5185 (2022). https://doi.org/10.1038/s41598-022-08935-1

By清华大学  王东