文化组学:从基因组学中获得灵感,用工具研究文化如何随时间改变

佚名 次浏览

摘要:文化组学 (cultur omics),是一个由“文化(culture)”和“基因组学(genomics)”合成的合并词。它是指利用数学方法分析海量文本数据

词汇表

编辑

一组研究人员从基因组学中得到启发,设计了一种工具,可以提供有关文化随时间变化的定量数据。基因组学研究分析大量数据,以研究基因如何发挥作用和变化。新的“文化组学”工具采用大规模方法研究词语随时间变化的使用频率,并用它来观察人类思想和文化的趋势。

项目研究报告

编辑

Culturomics 项目始于 2007 年。当时,哈佛大学数学博士生埃雷兹·利伯曼·艾登 (Erez Lieberman Aiden) 正在将数学方法应用于基因组学。2007 年 3 月幸福感,他敲开了位于加州山景城的谷歌总部谷歌研究部主任彼得·诺维格 (Peter Norvig) 的门,希望获得一些数据并访问谷歌图书,这是谷歌的一个雄心勃勃但充满争议的项目,旨在扫描所有出版过的书籍的每一页。

伊顿认为,通过分析过去几个世纪出版物中词汇的增长、变化和衰落,研究人员或许能够从更宏观的角度研究文化的演变。伊顿和迈克尔组队页游,将进化生物学的数学工具运用到书面语言的研究中,例如,2007年,他们对英语动词演变的研究登上了《自然》杂志的封面。但他们从未挑战过谷歌图书所包含的海量数据。谷歌图书拥有来自1500万本书的20万亿个单词,相当于自1450年古腾堡出版《圣经》以来密室逃脱游戏,人类出版的书籍的12%。

对比分析报告

编辑

通过比较分析,伊顿和迈克尔发现,人类基因组的信息量只相当于一首有30亿个字母的诗。

他们还量化了个体对文化的影响。例如游戏手柄,通过分析“西格蒙德·弗洛伊德”(奥地利精神分析学家)和“查尔斯·达尔文”(英国生物学家)的出现频率,揭示了文化智力不断进化的趋势:2005年防沉迷系统,弗洛伊德已经落后,达尔文终于超越了他。

N-Gram 数据库的分析还揭示了历史学家忽视的模式。由伊顿的妻子、哈佛医学院学生帕丽斯·伊顿领导的团队分析了 20 世纪上半叶出现在德国书籍中的人名。他们发现,在纳粹时期,大量艺术家和学者被审查,看他们是否是“犹太人”或“堕落者”,比如画家巴勃罗·毕加索。此外,使用 N-Gram 追踪这些名人还发现,在纳粹时期,当他们的名字从德国书籍中消失时,他们仍然经常出现在英文书籍中。

文化学院_文化学专业是学什么的_学文化

当他们识别出这一政治镇压信号后,他们分析了同一时期德国书籍中提到的所有人的“成名轨迹”,并根据“镇压指数”对他们进行排序,然后将这些名字的样本发送给以色列历史学家进行验证。结果发现临床试验,镇压指数识别出的 80% 以上的人确实因为名字被列入黑名单而受到审查,证明了数学方法是有效的。更令人兴奋的是,他们还列出了历史学家未知的镇压时代受害者名单。

文化组学评估报告

编辑

2011年1月《科学》杂志的一篇文章指出,对“文化群体”这一新分析方法而言学文化,另一个可能有价值的资源是维基百科,这个在线百科全书收录了自1800年以来出生的约75万人的生平信息,但它的弱点之一是信息的可靠性。如果要将维基百科用作研究或教学工具,还需要付出更多努力来提高其内容范围和质量。

“我们想证明,利用数据分析解决人文问题是可能的,”应用数学和基因组学专家伊登说。他将这种方法称为“文化组学”。用户可以下载数据并开发自己的搜索工具。

研究人员利用这一强大的数据库研究了名人名气的持续时间,发现在 20 世纪中叶生活常识,名人名气在书面材料中的消退速度是 19 世纪初的两倍。他们写道:“从现在起,每个人都会有 7.5 分钟的名气。”

具体来看发明戛纳红毯,他们发现,19 世纪初,技术进步被主流文化所接受平均需要 66 年,而在 1880 年至 1920 年间,仅用了 27 年。

他们还追踪了一些原本不加“ed”的古怪英语动词(如learnt)如何演变为常见形式(如learned)。他们发现,过去50年来,英语词汇量增长了70%,总计超过100万个单词。他们还证明心理健康的标准,通过准确识别新兴词汇和过时词汇,词典更新速度可以大大加快。

“我很兴奋地发现他们有这个数据库,”哈佛语言学家史蒂芬·平克 (Steven Pinker) 说,他参与了《科学》杂志语言进化部分的研究,并且研究英语语法和过去时态形态学已有 20 年。“我们太无知了。我不得不想,如果这个数据库能更早地出现,会对语言产生什么样的影响。”

平克说,有关动词词形变化的信息“使研究结果更加稳健、更加完整”,并补充道米其林三星,“我们在本文中报告的内容仅仅是一个开始。”

平克表示,尽管人文学科普遍厌恶定量分析,但他相信这种工具和类似的工具“将变得无处不在”。

随机内容