该数据集被认为是有关冠状病毒的同类中最广泛的集合,并且最重要的是,它是机器可读的,这种格式可以由计算机轻松处理,从而使AI专家更容易使用。

但是,对于机器学习研究人员寻找可用数据的普遍障碍,数据库内容的全面性是可变的。数据集中只有约13,000篇文章包含全文,这意味着文章中的所有图形和单词都可用。其他大约16,000篇文章仅包含元数据,例如作者的姓名或论文摘要,这在很大程度上是因为它们位于付费专区的后面。

该数据集被称为CORD-19,是COVID-19开放研究数据集的缩写,由跨不同部门的组织合作构建:

微软贡献了其文学策展工具。

由已故微软联合创始人保罗·艾伦(Paul Allen)创立的研究机构之一,艾伦人工智能研究所(Allen Institute for AI)将内容转换为一种机器可读的形式。

国立卫生研究院的国家医学图书馆提供了文献内容的访问权限。

由Facebook创始人马克·扎克伯格(Mark Zuckerberg)和他的妻子儿科医生Priscilla Chan发起的慈善机构“陈·扎克伯格倡议”(Chan Zuckerberg Initiative)提供了对已张贴在预印本服务器上但尚未经过同行评审的文章的访问权。

乔治敦大学的安全与新兴技术中心负责协调该计划。

白宫科学技术政策办公室要求创建数据集,该办公室周一召集了记者,要求人们对数据集有所了解。

作为该计划的一部分,已在Kaggle上发布了10个高级研究问题,Kaggle是一个由Google云业务拥有的AI研究人员在线社区。其中包括:“我们对病毒的遗传学,起源和进化了解多少?”“我们对COVID-19危险因素了解多少?”以及“关于伦理和社会科学考虑的出版物已发表?”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。