高质量数据是推动AI算法发展的动力。没有标记数据的连续流动,可能会出现瓶颈,并且算法将慢慢变得更糟,并给系统增加风险。

这就是为什么标记数据对于Zoox这样的公司如此重要的原因,邮轮和Waymo,它使用它来训练机器学习模型以开发和部署自动驾驶汽车。正是这种需求导致了Scale AI的创建,该公司使用软件和人员来处理和标记图像,激光雷达和地图数据,以建立机器学习算法的公司。从事自动驾驶技术研究的公司构成了Scale的大部分客户群,尽管Airbnb,Pinterest和OpenAI等也使用其平台。

随着视音频公司暂停在公共道路上进行测试(收集数十亿张图像的手段),当前局势已经减缓甚至阻止了数据流。Scale希望免费重新打开水龙头。

该公司与激光雷达制造商Hesai合作,于本周启动了一个名为PandaSet的开源数据集,可用于训练自动驾驶的机器学习模型。该数据集是免费的,并已被许可用于学术和商业用途,包括使用Hesai的前向式PandarGT激光雷达以类似图像的分辨率以及其机械旋转的激光雷达Pandar64收集的数据。该公司表示,在官员发布该地区的全屋订单之前,这些数据是在旧金山和硅谷市区开车时收集的。

Scale首席执行官兼联合创始人亚历山大·王(Alexander Wang)在最近的一次采访中表示:“人工智能和机器学习是令人难以置信的技术,具有令人难以置信的影响力,但同时也带来巨大的痛苦。”“机器学习绝对是一种垃圾回收,垃圾回收的框架-您确实需要高质量的数据来支持这些算法。这就是我们建立Scale的原因,也是我们今天使用此数据集以开放源代码的角度帮助推动行业发展的原因。”

这种激光雷达数据集的目标是免费访问密集且内容丰富的数据集,Wang说,这是在复杂的城市环境中使用两种激光雷达实现的,这些环境中充满了汽车,自行车,交通信号灯和行人。

Wang说:“世界的Zoox和Cruises经常会谈论他们的系统在这些密集的城市环境中如何经过实战测试。”“我们希望将其真正暴露给整个社区。”

该公司表示,数据集包括48,000多个摄像机图像和16,000激光雷达扫描-超过100个8秒场景。它还包括每个场景的28个注释类和大多数场景的37个语义分割标签。传统的长方体标签,例如放在自行车或汽车周围的小盒子,不能充分识别所有的激光雷达数据。因此,Scale使用点云分割工具来精确注释复杂的对象(例如雨)。

开源AV数据并不是全新的。去年,Aptiv和Scale发布了nuScenes,这是来自自动驾驶汽车传感器套件的大规模数据集。Argo AI,Cruise和Waymo等众多视听公司也向研究人员发布了数据。Argo AI发布了策展数据以及高清地图,而Cruise共享了它创建的名为Webviz的数据可视化工具,该工具可以从机器人上所有传感器收集的原始数据转化为可视化图像。

规模的努力有些不同;例如,王说,使用此数据集的许可证没有任何限制。

Wang说:“现在有很大的需求,并且持续需要高质量的标签数据。”“这是构建自动驾驶系统时要克服的最大障碍之一。我们希望使对这些数据的访问民主化,尤其是在许多自动驾驶公司无法收集数据的时候。”

这并不意味着Scale会突然放弃其所有数据。毕竟,它是一家营利性企业。但是,它已经在考虑今年晚些时候收集和开放更新数据。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。