“AI 算命”登上 Nature 子刊,Transformer 新模型“Life2vec”成功预测意外死亡

wanwei2025 wanwei2025
17
2025-06-26
AI 真的可以用来科学地算命了!?丹麦科学家用全国 600 万人的公开数据训练了一个基于 Transformer 的模型,成功预测了意外死亡和性格特点。丹麦技术大学 (DTU) 的研究人员声称他们已经设计出一种人工智能模型,据说可以预测人们的生活中的重大事件和结果,包括每个人死亡的大致时间。文章在前两天登上了 Nature 的子刊 Computational Science。

AI 真的可以用来科学地算命了!?丹麦科学家用全国 600 万人的公开数据训练了一个基于 Transformer 的模型,成功预测了意外死亡和性格特点。

丹麦技术大学 (DTU) 的研究人员声称他们已经设计出一种人工智能模型,据说可以预测人们的生活中的重大事件和结果,包括每个人死亡的大致时间。文章在前两天登上了 Nature 的子刊 Computational Science。

作者 Sune Lehmann 称,「我们使用该模型来解决一个基本问题:我们可以在多大程度上根据过去的条件和事件来预测未来的事件?」

看来作者研究的目的没有别的,确实是想用 AI 来帮大家算命。

研究人员将人的生活轨迹表征为时间顺序的生活事件序列,这种表征方法与自然语言具有结构相似性。

利用 Transformer 模型的表征学习能力,可以学习到生活事件的语义空间,并生成个体生活序列的紧凑向量表征。

研究人员利用丹麦约 600 万人口的健康和劳动力数据,构建了基于 Transformer 的模型「life2vec」。

模型的输入数据是个人的出生时间,地点、教育、健康状况、职业和工资等,而输出数据包括了「意外死亡」和「性格的细微差异」等和个人生活息息相关的内容。

研究团队基于生活序列对个人的生活事件展开了预测,模型表现明显优于当前其他方法。

相比于其他方法,life2vec 模型对于性格的细微差异有更加优秀的预测结果。

研究人员在论文中进一步指出,模型的概念空间和个体表征空间都是有意义和可解释的,可以用来生成新假说,为个体化干预提供可能。

人类目前正在经历的人类预测时代的核心原因是海量数据集和强大的机器学习算法的出现。

在过去的十年里,机器学习通过访问越来越大的数据集,使越来越复杂的模型成为可能,从而使图像和文本处理领域发生了革命性的变化。

语言处理发展得特别快,Transformer 体系结构已被证明可以成功地捕获了大量非结构化单词序列中的复杂模式。

虽然这些模型起源于自然语言处理,但它们捕获人类语言中的结构的能力推广到其他序列,这些序列与语言有着相似的属性。

但是由于缺乏大规模数据,Transformer 模型尚未应用于行业外的多模态社会经济数据。

研究人员的数据集改变了这一点。他们的数据集的巨大体量使研究团队能够构建个体生命轨迹的序列级别表征,其中详细说明了每个人如何在时间中移动。

研究人员可以在不同类型的事件中观察个人生活是如何演变的 (关于心脏病发作的信息与加薪或从城市搬到农村的信息混合在一起)。

每个序列中的时间分辨率和序列的总数都足够大,研究人员可以有意义地应用基于 transformer 的模型来预测生活事件的结果。

这意味着表征学习可以应用于一个全新的领域,以发展对人类生活的进化和可预测性的新理解。

具体地说,研究人员采用了类似 Bert 的架构来预测人类生活的两个非常不同的方面:死亡时间和个性细微差别。

研究人员发现,研究人员的模型可以准确地预测这些结果,在早期死亡的情况下,比目前最先进的方法高出∼11%。

为了做出这些准确的预测,研究人员的模型依赖于生活中所有事件的单一公共嵌入空间-轨迹。

正如研究语言模型中的嵌入空间可以提供对人类语言的新理解一样,研究人员可以研究嵌入空间的概念,以揭示生活事件之间的非平凡相互作用。

下面,研究人员提供了对由此产生的生活事件的概念空间的洞察,并展示了该空间和模型本身的健壮性和可解释性。

基于 Transformer 的模型还产生了对个体的嵌入 (语言表征中的类比是总结整个文本的矢量)。使用显著图和概念激活向量 (TCAV) 等可解释性工具,研究人员表明个人摘要也是有意义的,并具有作为行为表型的潜力,可以改进其他个人水平的预测任务,例如,增强对医学图像的分析。

研究人员用一种简单的符号语言对丰富的数据进行编码。

复杂的多源时态数据的原始数据流带来了巨大的方法论挑战,例如不规则的采样率、数据的稀疏性、特征之间的复杂交互以及大量的维度。

用于时间序列分析的经典方法 (例如,支持向量机,ARIMA)[42,43] 变得繁琐,因为它们具有伸缩性,不灵活,并且需要大量的数据预处理来提取有用的特征。

使用转换方法允许研究人员避免手工制作的特征,而是以一种利用与语言的相似性的方式对数据进行编码。具体地说,在研究人员的例子中,每一类离散特征和离散连续特征形成一个词汇表。

这个词汇表 —— 连同时间的编码 —— 允许研究人员将每个生活事件 (包括其详细的限定信息) 表征为一个由合成词或概念符号组成的句子。

研究人员在每个事件上都附加了两个时间指标。一个是指定个人在事件发生时的年龄,另一个是捕捉绝对时间,见下图。

因此,研究人员的合成语言可以捕捉到这样的信息:「2020 年 9 月,弗朗西斯科在埃尔西诺尔的一座城堡里当警卫时收到了 2 万丹麦克朗。」

或者「在寄宿中学的第三年,赫敏参加了五门选修课」。在这个意义上,一个人的生命进程被表征为一串这样的句子,它们一起构成了个人的生命序列。

研究人员的方法允许研究人员编码关于个人生活中事件的广泛的详细信息,而不牺牲原始数据的内容和结构。

研究人员使用 transformer 模型来形成个人生活的紧凑表征。研究人员称研究人员的深度学习模型为 life2vec。

Life2vec 模型基于 transformer 架构。由于其压缩上下文信息的能力以及考虑时间和位置信息,Transformer 非常适合表征生命序列。

Life2vec 的训练分为两个阶段。首先,研究人员通过同时使用 (1) 一个遮蔽语言模型(MLM)任务,迫使模型使用标记表征和上下文信息 (2) 一个序列排序预测(SOP)任务,关注序列的时间连贯性来训练模型。预训练创建了一个概念空间,并教会模型生命序列结构中的模式。

接下来,为了创建个人生命序列的紧凑表征,模型执行了一个分类任务。模型在这最后一步学习的个人总结取决于分类任务;它识别并压缩了为给定下游任务最大化确定性的模式。

例如,当研究人员要求模型预测一个人的个性细微差别时,人物嵌入空间将围绕着对个性贡献的关键维度构建。

任何模型的首要测试是预测性能。life2vec 不仅超越了现有的 SOTA,同时还能在非常不同的领域进行分类预测。研究人员在两个不同的任务上测试了他们的框架。

预测早期死亡率

研究人员估算一个人在 2016 年 1 月 1 日之后四年内存活的可能性。这是统计建模中常用的任务。此外,死亡率预测与其他健康预测任务密切相关,因此需要 life2vec 建模个人健康序列的发展以及劳动历史,以成功预测正确的结果。

具体来说,给定一个序列表示,life2vec 推断出一个人在研究人员序列结束后的四年内(2016 年 1 月 1 日)存活的可能性。

研究人员专注于对年轻的群体进行预测,包括 30 至 55 岁的个人,其中死亡率难以预测。

研究人员展示了使用修正的马修斯相关系数 C-MCC61,的模型的性能,该模型由于存在未标记的样本而调整 MCC 值。

Life2vec 比基线高出 11%。请注意,增加 RNN 模型的大小并不能提高它们的性能。

下图 2.D 还细分了各种子组的性能:基于年龄和性别的交叉组,以及基于序列长度的组。

预测个性的细微差别

死亡作为一个预测目标是明确定义的,也是非常可衡量的。

为了测试 life2vec 的多功能性,研究人员现在预测「个性细微差别」,这是测量光谱的另一端的结果,是个体内部的东西,通常可以通过问卷调查来衡量。

尽管很难测量,但个性是塑造人们思想、情感和行为并预测生活结果的重要特征。具体地说,研究人员关注内向-外向维度领域中的人格细微差别 (为了简单起见,下面是外向),因为相应的人格细微差别是上个世纪 (在西方世界) 出现的基本人格结构的几乎所有综合模型的一部分。

作为研究人员的数据集,研究人员使用了在「丹麦个性和社会行为小组」(POSAP) 研究中为一大群有很大代表性的个体收集的数据。

研究人员随机选择一个项目 (个性细微差别) 每个外向方面,并预测个人水平的答案。

上图显示,将 Life2vec 应用于生命序列不仅允许研究人员预测早期死亡率,而且具有足够的通用性,足以捕捉个性的细微差别)。

Life2vec 在所有项目上的得分都高于 RNN,但只有在项目 2 和 3 上差异有统计学意义。为这一特定任务而训练的 RNN 也能够提取个性周围的信号,这一事实凸显出,尽管变压器模型很强大,但使 Life 2vec 如此通用的很大一部分原因是数据集本身。

研究人员方法的新奇之处在于,该算法学习包含人类生活中可能发生的所有事件的单个联合多维空间。研究人员从可视化开始研究人员对这个空间的探索。

全局视野

在上图中,使用 PaCMAP 将原始的 280 维概念投影到二维图上,该图保留了高维空间的局部和全局结构。

在这里,每个概念都根据其类型进行着色。

这种颜色清楚地表明,总体结构是根据合成语言的关键概念组织的:健康、工作类型等,但有趣的细节,将出生年份、收入、社会地位和其他关键的人口统计信息分开。这个空间的结构是高度鲁棒的,并在一系列条件下可靠地重复出现。

概念空间的精细结构是有意义的。深入挖掘全局布局,研究人员发现该模型学习了附近概念之间的错综复杂的关联。

研究人员通过邻居分析来研究这些局部结构,该分析利用原始高维表示中概念之间的余弦距离作为相似性度量。

的摘要是一个单一的向量,它概括了一个人的整个生活事件序列的基本方面。

个人摘要跨越了研究人员的人嵌入的空间。为了形成人的摘要,模型确定哪些方面与手头的任务相关。从这个意义上说,人称摘要是以特定的预测任务为条件的。下面,研究人员侧重于死亡可能性的人称摘要。

上图可视化了个人概要的空间。

相对于死亡率预测,该模型将个体组织在从低到高地估计死亡率 (D 组中的点云) 的连续体上。

在图中,研究人员通过红色菱形显示真实的死亡,而预测的可信度通过点的半径来表现 (例如,具有小半径的点是低置信度预测)。

此外,使用从黄色到绿色的颜色映射来显示估计的概率。

研究人员看到,虽然区域 2 大多数都是老年人,但仍然看到很大一部分年轻人 (图 5E),它包含一小部分真正的目标 (图 5F)。

B 区具有很大程度上相反的结构,大多数是年轻人,但也有相当数量的老年人 (图 5E),只有一人实际死亡 (图 5F)。

当研究人员查看低概率区域的实际死亡时,研究人员发现距离区域 1 最近的 5 个死亡原因如下--两个意外,脑部恶性肿瘤,宫颈恶性肿瘤,心肌梗死。


其他相关 RELEVANT MATERIAL

当AI学会算命,人类信仰去往何处?

wanwei2025 wanwei2025
15
2025-06-23
AI也许尚未进化出自己的情感,但可以确定,它已经深度学习了人类的感情困境。人工智能的语料库,也许像一座位于世界中央的失物招领处,寄存着人类遗失的情感线索。 不确定感和迷茫、抑郁和焦虑、爱无能......AI可以帮助我们处理这些问题吗?NOWNESS策划了“治疗情感症候群的若干方法”专题,由浅入深,关注技术的变革如何作用于社会情绪的症结,探讨技术疗愈脑与心的可能性与限度。 ...

AI算命火了,DeepSeek竟是风水大师

wanwei2025 wanwei2025
156
2025-06-22
...

AI算命爆火背后:Deepseek掀起“赛博玄学”浪潮,年轻人为何买单?

wanwei2025 wanwei2025
18
2025-06-19
当AI算法遇见玄学命理,逻辑推理能否预测未来?或者说,人工智能能否帮助人们猜中彩票号码?2025年初,Deepseek的爆火为AI行业带来了新话题,也衍生出“AI课程售卖”等新风口。其中,“AI算命”因切中年轻人的心理需求,成为社交网络的新潮流。有人用Deepseek算出“前世”是江南才女,有人开发AI算命应用,还有“Deepseek买彩票中奖”的新闻。面对爱好玄学的年轻人,“赛博半仙”似乎赚翻了。在小红书上搜索“Deepseek”,第一个联想词是“Deepseek玄学指令”。Deepseek的开发者恐怕没想过会以这种方式“升仙”。...

AI算命,到底在算什么?

wanwei2025 wanwei2025
17
2025-06-19
ChatGPT之类的大模型兴起之后,一直有人用来做一些比较有趣的事。比如说玄学,就是其中一个方向。而本文作者在本文中分享的这些思考,希望能给大家一些参考。 ...
1971年出生属什么生肖 1971年属猪是什么命

1971年出生属什么生肖 1971年属猪是什么命

wanwei2025 wanwei2025
21
2025-06-20
1971年出生属什么生肖   1971年是农历辛亥年,也就是猪年。那么,这年出生的人属相为猪。   第一种:按每年“立春”进行划分 阳历(公历)时间:1970年2月4日13时54分至1971年2月4日19时44分 农历庚戌年(狗年,此时出生为属狗)1971年2月4日19时44分至1972年2月5日1时32分 农历辛亥年(猪年,此时出生为属猪)...
梦见被囚禁

梦见被囚禁

wanwei2025 wanwei2025
17
2025-06-20
梦见被囚禁是什么意思有什么预兆 囚禁,意思是指关押、监禁等。还可以指思想、行为自由受到约束。梦见被囚禁,主事业中多有他人相助,求财有好运之预兆,此乃吉兆。 梦见自己被坏人囚禁折磨,预示着你运势上升,一旦和他人建立合作关系或连结,会获得意想不到的推进动力。 梦见被囚禁,忽然出现了钥匙,暗示困扰你很久的问题即将找到解决办法。 梦见被囚禁后逃出,预示着自己生活中会遇上非常困难的事情。 梦见家人被囚禁,预示着家庭关系会非常和睦。...
年度爆文