一、地理大数据的产生背景和特征
近年来,“大数据”成为人们生活中的一个热词,“大数据抗疫”、“大数据支持下的城市大脑”等概念层出不穷。可以说,人类社会生活已经与大数据产生密切联系。由于很多大数据常常和地理位置相关联,因此它也自然成为地理信息科学主要的研究方向之一。
地理信息科学需要研究、开发各种不同类型地理大数据的分析方法,从而为城市规划和管理提供决策支持。本次报告针对不同类型的地理大数据,通过不同案例的分析,揭示地理大数据挖掘与分析的研究方法和现状。
大数据的产生和信息通讯技术的发展密不可分。大数据产生来源可以分为以下四类。
第一类是由科学装置获取的实验探测大数据,一个著名的例子是著名的位于贵州省平塘县的天眼FAST传感器产生的数据,这类数据源的特点是都属于特定的领域的探测仪器,具有很强的专业性。
第二类是传感网络,在城市空间当中随处可见的摄像头将道路的环境信息以图像或者视频的方式记录下来,形成海量的街景数据。此外,物联网技术迅速发展,使得每一种带有电子标签的物体均可以定位于物联网,这些物体产生的电子记录同样构成了大数据集。
第三类是城市移动设备产生的数据源,如车载GPS导航数据,手机基站位置数据,用户携带手机或驾驶车辆移动产生的带有时空标记记录的数据。
第四类是社交媒体和社交网络上传的数据。随着移动互联网的发展,人们通过社交媒体如微博、Twitter等分享自己的生活、表达自己的观点。在这个过程中,人和地的属性信息通过地理标签与地理位置关联起来,形成具有同时兼备丰富语义信息和位置信息的数据集。
从上面的四种类别可以看出,大数据并不神秘,它来源于每个个体日常活动留下的电子足迹,产生于生活,应用于生活。
和传统小数据集相比,大数据具有极大的研究价值,这种价值源自于大数据的5V特征:首先是数据量(Volume)大。不论哪一种数据来源,数据量大是大数据最显著的特点,海量数据对研究对象的覆盖更广,从而可以揭示小数据集无法揭示的现象。其次是更新速度(Velocity)快,使得大数据具有动态性,以秒级甚至亚秒级时间分辨率迅速积累的数据。
同时,大数据具有类型多样(Variety)的特点,这一点从大数据来源的多样性也可见一斑。此外,大数据的数据真实性(Veracity)存在差异,在应用当中部分大数据集的不连续性、不完整性等质量问题也会影响大数据分析与应用的效果。最后,大数据具有高价值性(Value),单独一条或者少量数据内含的价值可能有限,但积少成多形成的大数据集可以发现有价值的模式,为决策提供支持。
图1-1 大数据的5V特点
地理信息科学学者关注的地理大数据是大数据的特殊类别。地理大数据的数据源包括但不限于手机数据、公共交通刷卡数据、银行卡数据等,这些数据集在公共卫生、防灾减灾、城市规划、交通管理等领域都得到了广泛的应用。和一般意义上的大数据相比,地理大数据还具备两种特殊性质。首先,地理大数据具有个体粒度,即大数据的产生媒介对于每一个在地理空间中移动的个体都进行追踪,个体每一次活动都可以在数据集当中留下记录,这一点突破了传统数据集无法充分揭示海量个体层面行为规律的限制。另外,地理大数据具有特殊的时空标记,可以将个体活动的空间特性进行充分的记录。在地理空间中,每一个个体的移动具有很强的随机性,但如果将这些个体的活动信息汇总为群体信息,将涌现出内在的规律性,正是这种规律性帮助研究者认识地理世界,并帮助城市管理者进行科学决策。
二、地理大数据应用
地理大数据的应用可以分为六个角度,即刻画分布特征、识别异常对象、发现普适规律、揭示关联特征、预测未来趋势和优化空间决策。这些研究角度的基础源自于各种计算机以及物理学领域的分析方法,如时空数据挖掘、机器学习、人工智能、复杂网络分析等。这也正是地理信息科学作为一门交叉学科、融合多个学科的知识与方法体系于一体的表现。
2.1 刻画分布特征
鉴于城市是人类社会当中空间异质性较高、人地交互较为集中的区域,我们从城市入手,解释地理大数据在描述时空分布现象方面的重要价值。城市是一个复杂的人地耦合系统,地理大数据为研究该系统当中不同要素的分布格局、理解城市景观的多样性和异质性、进一步理解和研究城市打下了基础。
这种异质性,可以从人和地两个角度刻画。地的异质性话题一个例子是对于北京市城中村区域的识别。针对这类城市现象,遥感手段可以通过数字图像处理和目标提取的方法进行区域的识别和划分,而借助于手机信令数据,分析居住者的分布,通过空间模式提取可以得出城中村区域的分布特征。除去空间上的要素分布特征,地理对象时序的特征同样值得关注。
例如,我们可以通过研究手机、出租车轨迹、社交媒体等时空大数据对于一天内不同用地功能地区城市活动量的动态变化,来揭示不同类型地理单元其人口活动量在一天内的变化趋势,进而衡量不同用地功能的混合程度,后者是城市活力高低的重要指标,对城市规划与管理具有很大的价值。
此外,社交媒体也可以为城市用地功能差异的研究提供支持,研究者可以利用社交媒体签到数据与自然语言处理技术,提取分布在不同城市区域的微博内容,对其进行量化分析,进而理解城市里面不同活动的空间分布,如北京市西城区和海淀区占主导地位的活动更偏向于学习和工作、东城区和朝阳区的主导活动是娱乐;另一项有趣的研究是利用微博数据,基于自然语言处理技术分析居民正面情绪和负面情绪的热点分布,也能得到类似的结论,同时从侧面印证了北京市用地功能结构存在空间异质性的特点。
图2-1 刻画分布特征实例——社交媒体数据刻画
在国家等更大的地理尺度上,地理大数据同样大有作为,研究者利用手机APP发送的定位请求数据,可以分析全国人口空间分布情况和城市体系结构,在时间维度上分析人口在平时和春节期间的变化,进而识别中心城市,量化城市的等级以及刻画城市的功能。
另一个有趣的研究是考察城市间出行的跨尺度映射,如探索北京市飞往广州、深圳的居民居住地分布位置的差异,建立城市内各区域用地差异与其居民到访城市功能差异的对应关系,可以发现飞广州的旅客多居住于北京的国家部委机关和军队等单元,而飞深圳的旅客多居住于北京的高校、中关村、金融街等。最后,研究者还可以利用时间分布理解对应的地理过程,如使用人群活动大数据描述疫情后复工复产过程的趋势。
2.2 识别异常对象
在分析地理大数据刻画出的地理分布现象之后,研究者可以通过进一步的分析,发掘异常的地理单元、异常的人以及异常的事件或空间过程。异常的地理单元方面,识别一些和常规场所不同的区域,能够帮助研究者从独特而崭新的视角审视和理解城市空间内的异质性。
典型的例子包括利用人口迁徙大数据发现春节地区人口流出地,结果发现,除去外来人口较多的一线大城市,还有甘肃甘孜地区的人口在春节期间异常下降,进而将其归因于世界最大佛学院的影响;挖掘出租车轨迹数据时空特征,发现到访量与其他区域呈现相反形态的北京三里屯地区;利用街景数据配合社交媒体签到数据发现不起眼的餐厅和未受关注的公园,为居民的出行提供导引 ; 利用遥感大数据度量建筑物密度,从而发现“鬼城”的存在和变化趋势。
图2-2 异常对象的识别实例——不起眼餐厅和未受关注的公园
除去地理单元的特殊性发现,研究者也可以对异常的人群进行检测。如清华大学龙瀛研究员通过挖掘出行数据,提取四类特殊人群(早起者、晚归者、长距离出行者和频繁出行者)。从时间维度,还可以针对特殊的地理过程和事件进行发现。如利用定位数据本可以及时发现局部区域的人口密度异常,从而及时避免2014年发生的上海外滩踩踏事故。
2.3 发现普适规律
地理学和物理学不同的一个重要方面在于,物理学中存在大量的普适规律,不受时间和实验条件的影响,然而地理空间当中的异质性与地理现象的不确定性使得地理学很难提出特有的普适规律。尽管地理学当中的普适定律不多,但在特定的条件下,不同城市间存在着一些不随地理环境异质性影响的稳定特征或者关系,这些关系能够帮助研究者更加深刻地理解城市形成和发展过程当中的各种机理。
典型的例子如中科院地理所王姣娥研究员基于北京市7年地铁刷卡数据,揭示通勤45分钟定律,后续的研究验证了45分钟正是城市空间组织的关键参数,同时也是人认知持续能力的上限;后续的扩展研究如通勤距离随距城市中心的距离呈现的倒U型曲线,为城市多中心结构的出现机制提供了支持。
图2-3 45分钟定律的扩展研究——通勤对城市空间形态的影响
2.4 揭示关联特征
大数据与机器学习相结合,可以揭示出很多关联关系或者因果关系。一个典型的非地理领域的例子是MIT团队开发的Speech2face,可以通过声音推断用户的性别、年龄、种族等特征,甚至描绘出人的外貌。看似令人难以置信的研究,背后是对于潜在关系的发现。
地理领域当中,研究者可以利用从街景提取一个区域的出行总量,预测人口学特征,以及受教育程度、政治倾向等;还可以利用社交媒体数据揭示新冠疫情对于心理健康的影响,分析社交媒体数据当中的情绪特征,结合新冠疫情数据分析二者之间潜在的因果关系。这些例子不论是空间上的关联特征还是因果关系,都能很好的得到时空大数据和机器学习研究手段的支持。
图2-4 街景数据预测人口学特征
2.5 预测未来趋势
我们知道大数据具有时态特征,这意味着研究者可以基于地理现象过去的模式对未来进行预测。预测问题可以分为短时间尺度和长时间尺度,短时间的交通领域预测方兴未艾,如利用车辆轨迹进行短时间的交通流预测。另外,大数据还支持长时间的人口以及经济指标预测,如综合利用手机数据、人口数据对未来2030年乃至2050年的人口进行预测,从而为国家政策的长远规划提供科学依据。
图2-5 短时交通流预测实例
2.6 优化时空决策
最后一类应用是基于大数据,站在“上帝视角”对于资源的时空配置进行空间优化。日常出行人们常常遇到刚好错过空驶出租车的情况,如果能利用全局的信息,优化出租车的调度模式,则可以很大程度避免交通资源的浪费,提高效率。正是在此背景下MIT Sensible City Lab提出了一种调度算法,可以将城市的出租车数量减少30%,而不影响出租车的运营。
图2-6 优化时空决策实例——出租车优化调度
另一项有意义的研究是基于海量人群行为大数据,通过合理地重新分配城市设施,可以将旅行成本降低到原先的一半;而在最佳方案当中,可以将平均旅行距离建模为设施数量和人口密度的函数形式。可以看到这一类研究都利用了全面而丰富的地理大数据通过优化地理对象的静态分布和动态移动模式,达到特定的优化目的。
三、总结
从研究范式的角度来讲可以将大数据的上述六种应用划分为三个层次。第一个层次即第一点刻画分布模式,它对应于研究者对于空间现象的描述。第二个层次包含异常对象识别、普适规律发现以及关联特征的挖掘三个方面,三者的共同特点是它们均建立在对于空间现象描述的基础之上,挖掘地理现象的模式和机理。第三个层次是预测未来趋势和优化时空决策,二者的共性是利用第二个层次发现的模式和机理来应用于实际的规划过程,提供决策上的支持,使政府的决策更加科学,使人的生活更加美好。这三个层次也正好对应科学研究一般范式的三个阶段,即从发现现象到挖掘规律再到应用。
从研究框架的角度而言,地理大数据的研究框架以获取移动互联网、传感器与社交媒体等数据源为基础,通过结合机器学习、数据挖掘、复杂性科学方法等研究手段,融合尺度效应、距离衰减等传统地理学的基础概念和理论,进行综合的分析研究,为城市规划、交通、公共卫生领域提供指导与支持。
图3-1 地理大数据研究框架
在未来,地理大数据还具有广阔的应用场景和有价值的问题等待研究者去发现,其研究范式也会随着数据获取手段和分析方法的进步而逐渐完善。
0人已收藏
0人已打赏
免费1人已点赞
分享
水土保持
返回版块4.34 万条内容 · 201 人订阅
阅读下一篇
丁仲礼院士:深入理解碳中和的基本逻辑和技术需求编者按 202 0年9月,国家主席习近平代表我国向世界作出庄严承诺: 我国二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和。 自此之后, 我国各地掀起一股争取实现“双碳”目标的热潮,并为此作了大量人力和物力的投入。 这表明我国上上下下对这个“双碳”目标的态度是十分严肃的,国际社会应该对我们这个“需要在不长时期内作出世上规模最大的碳减排”的国家有充分信心。
回帖成功
经验值 +10
全部回复(1 )
只看楼主 我来说两句 抢板凳感谢楼主分享,地理大数据让你从发现现象到挖掘规律再到应用,便捷工作,提升效率。
回复 举报