该案例来自于Maximilian Schich, Chaoming Song, Yong-Yeol Ahn等人2014年发表于《Science》的文章《A network framework of cultural history》,原文可见science.sciencemag.org。本案例只对研究方法和流程进行介绍,具体分析内容可见原文。

 

研究简介

大量个体之间复杂相互作用推动了文化在历史上的发展,这由难以量化的历史条件决定。 [研究目的]为了表征这种难以量化的历史条件,Schich等人[研究方法]通过超过150,000名著名人物的出生和死亡地点,重建了两千年来的知识分子的流动该概览;并使用了复杂网络工具来识别特征统计模式,并确定了不同地区的文化偏差和历史相关性[研究价值]通过地理空间分析和复杂网络分析,该研究提供了一种研究文化历史的宏观视角,有助于使用大规模可视化和定量动态分析工具来追溯欧洲和北美文化的历史趋势。

 

研究设计

  • 研究依据

    • 基于定量的方法来识别统计规律
    • 基于定性的方法来解释局部偏差对未发现的一般模式的影响
  • 使用数据

    • 使用了三个结构化主题数据库中,超过两千年时间的重要人物的出生和死亡的时空数据(时间和地点数据)
      • Freebase.com (FB)
      • 一般艺术家词典 (the General Artist Lexicon,AKL)
      • 盖蒂联合会艺术家名单 (the Getty Union List of Artist Names,ULAN)
    • 对不同数据库之间的数据偏见进行了解释,这些数据偏见未对该研究造成显著影响。【注释1】
  • 研究框架

    • 构建研究所用数据库
      • 调研可使用的数据库,并对不同的数据库的元数据(即该数据库提供哪些不同的数据)进行统计;
      • 集成多个数据库的所需数据【注释2】,该研究中主要使用著名人物的出生地、出生时间、死亡地、死亡时间、职业种类等数据。
    • 通过基本数据统计分析世界人口与研究使用的艺术家人口变化趋势
      • 使用折线图表示FB,AKL和ULAN数据库与估计的世界人口中具有出生和死亡地点的,从1500年到2012年间在特定年份(每100年)年活着的著名人士的数量变化。
      • 使用热力图表示FB中的人口寿命,同时通多热力图中的颜色变化揭示1500到2012之间著名人士的死亡年龄频率。
    • 通过累计1500年到2012年中FB中的人物地理信息的频次,来描述不同城市的“作用”
      • 绘制出生-死亡散点图,来描述不同的离群值城市(即该地区的出生人数与死亡人数成常值比例),并将这些城市区分为出生源城市(蓝色标记)和死亡吸引城市(红色标记)【注释3】
      • 使用散点图配色方案,根据Winckelman语料库,举例说明18世界的几百个考古学家的的流动,以验证上述散点图所描绘的文化吸引力和空间互动模式【注释4】
    • 通过FB数据库中的超过12万的著名人物的数据,将3万7千多个地点连接起来,并在欧洲地图上进行表示
      • 采用PageRank算法【注释5】来评估从公元前1069年到公元2012年之间的重要节点(城市);
      • 选取四个时间节点,来分析出生-死亡网络的动态变化
        • 欧洲,300年
        • 欧洲,1300年
        • 欧洲,1800年
        • 欧洲,2012年
    • 采用复杂网络分析方法,对公元前1069年到公元2012年的不同节点(城市)的出生和死亡的不平衡性进行分析
      • 包括出生地和死亡地的预测与偏离分布。
      • 该部分采用的分析方法涉及了复杂网络,故不在本案例中进行具体说明,详情可见原文。

 

结论分析

  • 著名人物的出生和死亡数据揭示了两千年来文化相关位置之间的相互作用

    • A:FB,AKL和ULAN数据库与估计的世界人口数量
    • B:人口统计(数据源自FB)
    • C:城市在时间中累计中的出生-死亡统计
    • D:基于欧洲地图的从出生地到死亡地的迁移(数据源自FB)
gis1
  • 出生-死亡网络为人类流动中的全球模式和局部不稳定性提供了历史证据

    s
  • 出生-死亡网络动态可视化提供了文化历史的叙事结构

    •  

      A:分布展示四个时间点的出生-死亡网络。
    • BC:公元1300年至2012年之间的各地点的死亡分布。s
  • 文化中心的时间死亡率模式揭示了中期趋势,很难从其他来源中提取

s

 

案例注释

1. 与当代世界范围内的移民流动相比,该研究采用的数据集主要集中于欧洲和北美内外的从出生到死亡的迁移。

2. 在集成多个数据库的数据时候,特别需要注意数据融合与消歧(即重复数据)的处理,并对不同数据库之间的数据偏见程度进行分析。

3. 利用散点图将著名人物倾向于出生的位置(出生来源)和倾向于死亡的位置(死亡吸引)区分开来;同时观察到长寿和短寿死亡地点,其中短寿地点代表了飞机失事地点,战场或集中营。 此通过离群值可以发现,出生和死亡的不平衡导致其对角线的显着偏离,例在好莱坞这样的地点中死亡人数是出生人数的十倍以上。

4. 通过18世纪的几百个考古学家(来自Winckelmann语料库的数据)的出生-死亡数据,可以发现:尽管出生于欧洲各地,他们多死于历史上的文化中心,例如罗马,巴黎或德累斯顿。

5. PageRank算法认为,一个节点对系统施加影响的结果,就是与它相连的节点也具有一定的影响力。