职员们齐坐在一起,所有人都埋头电脑,一件一件的“东西”掠过眼前,经过标准化处理后,转移到下一个过程。这实际上是人工智能行业的数据显示办公室角落。
由于深度学习的研究方向,人力密集型数据标记工作是推动人工智能技术落地的重要环节之一。
长时间以来,在过去AI的发展中,数据收集和标记行业没有受到太多关注。毕竟,与算法、算术能力等较高的东西相比,AI数据的生产总是有着与AI技术的“技术感”完全不同的形象。(威廉莎士比亚,《北方执行报》)。
但是随着AI的发展,AI数据产业朝着高度专业化、高质量化的方向积极发展的误解越来越多。(威廉莎士比亚,AI,AI,AI,AI,AI,AI,AI,AI)。
根据2018年智力研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》,2018年该行业的市长/市场规模已经达到52.55亿元,2020年市长/市场规模预计将突破100亿。一些行业预计AI项目中10%的资金将用于数据收集和显示,2020年数据显示行业的最终市长/市场规模将达到150亿。
共享市场不仅有BAT、京东等互联网巨头,还有侧重于提供云测试数据这一高质量的专业化数据平台。
在庞大的前景下,数据收集和标记可以分为自然语音处理(NLp)、计算机视觉(CV)等几个部分,随着数据需求的增加和对数据质量的要求的提高,NLp越来越成为“硬骨头”,AI数据产业最终将面临由此带来的难题,这些难题将会接踵而至,落空。
AI的数据、算法和计算力成为“轮流坐着”,NLp成为“数据为王”的时代。
芯片制造工艺和大规模并行计算技术的发展使计算能力迅速提高后,AI能力的提高主要集中在算法和数据上。(提高计算能力固然有价值,但相对价值是显而易见的。例如,对物联网终端设备的计算能力设置要求太多是不可能的。) (阿尔伯特爱因斯坦,北方执行部队(Northern Exposure),电脑)。
在这方面,多年来人工智能技术呈现出“旋转坐庄”的螺旋上升关系。