2020年春天,新冠预测统计模型开始出现。每当公众试图判断新型冠状病毒在2020年3月和4月可能造成什么影响时,都会提到两个预测系统:一个是由伦敦帝国理工学院(Imperial College London)建立的,另一个是由总部位于西雅图的卫生计量与评估研究所(Institute for Health Metrics and Evaluation)建立的。

不过,利用这些模型得出的预测并不相同。帝国理工学院警告称,到2020年夏天,美国可能有超过200万人死于新冠肺炎;而卫生计量与评估研究所的预测则保守得多,其预计到8月份将会有6万人因新冠肺炎死亡。事实证明,截止到2020年8月份,美国死亡人数达到了16万。

由这些模型得出的数据之间的巨大差异,吸引了年仅26岁的数据科学家Youyang Gu的兴趣。Youyang Gu来自麻省理工学院,他获得了电气工程与计算机科学和数学学科两个硕士学位,但并没有接受过医学或流行病学等相关领域的正式培训。不过,在他看来,他所拥有的处理数据模型的能力在病毒大流行期间是非常有用的。

图 | Youyang Gu(来源:彭博社)

2020年4月中旬,Youyang Gu和父母一起住在美国加利福尼亚州圣克拉拉县。他花了一周时间来建立自己的COVID-19死亡预测器和一个能够展示病情信息的网站。此后不久,用他所做的模型得出的结果,开始比看似权威的机构得出的数据结果更加准确。

旧金山大学著名数据专家和研究科学家Jeremy Howard说:“他的模型是这么多模型当中唯一一个看起来比较合理的。虽然其他模型的预测结果一次又一次地被证明是不大准确的,但发表预测的人和报道这些预测的记者们却并没有从中得到反思。Youyang Gu是唯一一个真正关注数据并对它们进行正确处理的人。”

从某些方面来看,Youyang Gu建立的预测模型很简单。他首先考虑检查COVID-19的检测、住院和其他因素之间的关系,但却发现所得的数据与各州以及联邦政府报告的数据并不一致。在他发现每天报告的死亡人数似乎是最为可靠的数字之后,他表示:“其他的模型一般都会使用较多的数据来源,但我决定依靠过去的死亡人数来预测未来死亡情况。将这个因素作为唯一的输入对象,有助于从杂音中过滤出想要得到的信号。”

Youyang Gu的模型体现出新颖和复杂的特点,这是因为他通常使用机器学习算法来精进他的数据。从麻省理工学院毕业后,他在金融行业工作了几年,主要工作内容是给高频交易系统编写算法。在当时的工作中,如果他想得到老板的满意,必须保证自己的预测是准确的。

当谈到COVID-19这个问题时,他表示,为得出更精准的预测,他会不断地将自己的预测与最终报告的死亡人数进行比较,并不断地调整机器学习软件。对Youyang Gu来说,尽管这份工作需要花费的时间与全职工作一样多,但他依然愿意坚持下去,并凭借着自己之前的积蓄生活。

尽管还不够完美,但Youyang Gu的模式从一开始就有较为良好的表现。他在2020年4月底时预测:到2020年5月9日,美国将会有8万人死亡。后根据各州的报告可知,实际死亡人数为79926人。美国卫生计量与评估研究所在2020年4月底时也有一份类似的预测:2020年整年,美国死亡人数不会超过8万人。并且,Youyang Gu预测到2020年5月18日时死亡人数会达到9万人,5月27日时死亡人数会达到10万人。美国卫生计量与评估研究所曾经预测,因为社会距离和其他政策的影响,病毒会逐渐消失。但Youyang Gu却认为,随着许多州的重新封锁,美国将会出现第二波大规模感染和死亡的情况。

因为预测的数据结果和实际情况总是不符,美国卫生计量与评估研究所在2020年3月和2020年4月受到了许多批评。

2020年春天过后,越来越多的人开始关注Youyang Gu的工作。Youyang Gu在推特上向记者展示了他的模型,给流行病学家发邮件邀请他们检查模型数据。2020年4月底,华盛顿大学著名生物学家Carl Bergstrom在推特上发布了Youyang Gu的模型。不久后,美国疾病控制与预防中心将Youyang Gu的数据纳入了其新冠肺炎疫情预测网站。

此外,Youyang Gu博客的流量也开始呈爆炸式增长。用户为了解所在地情况,每天都有数百万人登陆他的网页。通常情况下,会在几周后到达的预测数据最终与实际死亡数字相吻合。

因为人们对这些预测具有浓厚的兴趣,在2020年春夏期间,开始出现更多模型。马萨诸塞大学阿默斯特分校的生物统计和流行病学副教授Nicholas Reich收集了大约50个模型,并花了几个月时间在COVID-19预测中心测试了这些模型的准确性。Reich表示:“Youyang Gu的模型在准确性上一直名列前茅。”

2020年11月,Youyang Gu决定停止这份对死亡人数的预测工作。Nicholas Reich将各种预测混合在一起后发现,最准确的预测来自这种把数据进行合并的集成模型。

Nicholas Reich评价说:“Youyang Gu带着一份非凡的谦虚退了回去。他完成了在这里的工作,也看到了其他做得很好的模型。”在这个项目被叫停的前一个月,Youyang Gu预测到2020年11月1日美国的死亡人数将达到23.1万。当这一天到来时,美国报告的死亡人数为230995人。

就Youyang Gu的退出而言,美国卫生计量与评估研究所(Institute for Health Metrics and Evaluation,IHME)的主任Christopher J. L. Murray有自己的看法。他说:“Youyang Gu的模型没有注意到新冠病毒的季节性,也没有注意到冬季患病人数和死亡人数的激增。他使用的机器学习方法对于短期预测来说非常有效,但在更大的范围内不太适用。基于过去的算法,并不能解释病毒的变异,也不能说明疫苗对病毒变异究竟有多大的作用。”

就Murray对其模型给予的评论,Youyang Gu并没有给出回应。

经过了一段时间的休息后,Youyang Gu重新回到了模型行业。这一次,他做出了一些与美国人感染COVID-19有关的数据,这也包括疫苗会被多快推出以及美国可能何时达到群体免疫等方面。他的预测表明,到2021年6月份,包括已经注射了疫苗和过去曾经被感染的情况在内,大约有61%的人口应该具有某种形式的免疫。