揭秘 AI 风口下的数据标注生意|深度

在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。

开玩笑的时候,小雪说她的男友是 AI 产业中工资最低的那个,其次就是她自己。

刚从济南德州信息工程学校计算机专业毕业,小雪和男友正在接受手写体录入培训,当她能认识这些手写字母后,就轮到她把这些知识教给计算机——把一张张快递单或家谱上的手写体上的字母标注出来,告诉机器 i 可以有多种写法。

这样的工作并不简单。手写的 i 可能是顶上一点加上一竖,也可能是朝后弯的小勾,更潦草一点就和数字 9 一样……小雪的笔记本上密密麻麻地挤满了这些像字更像图的墨迹。

小雪做的,是一种介于手写录入和图像标记之间的工作。同服务于智能驾驶的街景标记、服务于智能医疗的人体标记、服务于语音交互的声音标记一样,他们共同的行业学名叫做「人工智能数据标注」——这是整个 AI 产业的基础,是机器感知现实世界原点。

和小孩一样,机器要认识「苹果」,就需要不断有人教给它哪些东西是苹果:浑圆的、带把的、有的像桃心有的像屁股,有的通红有的油绿。和小孩不同的是,机器需要在不同场景、不同角度下反复学习,这个漫长的教授过程就是小雪在 AI 产业中的位置,标注大量用于训练机器学习模型的数据,让机器越来越像「人」。

无差别的人力,天壤之别准确度

如果小雪标注犯错,最直接的后果是机器也会跟着犯错。她必须保证「喂」给机器的标注数据达到 90% 以上精度(即是指标注的正确率),否则这些数据对于机器学习将毫无意义。北京一家数据标注工厂 Basic Finder 的 CEO 杜霖说:95% 以上的准确率是理想情况;但从 95% 提到 97% 所需花的成本就不再是一两倍了,可能是 10 倍或 100 倍。

98% 精度是小雪遇到过的最高需求,这意味着如果 100 个点里头有两个点不准的话,就会被打回重做。她「提心吊胆」地对每个标注点反复确认才敢提交。但 15 骨骼点标注又极耗耐心,要在人全身包括头顶、脖子、胸口、膝盖等骨骼处打上 15 个点,将这 15 个点连起来就出现了一个形象的火柴人。在 Kinect 体感游戏中,机器就是靠关键骨骼点的位移来识别人体是否运动。

令小雪最郁闷的,是一张军姿站图。只要露出了头、脖子、胸口,小雪就要从他的左上角开始画矩形,框住这些动作、着装完全一致的人。重复拖动近 40 个框后,她要再放大这些带有蓝色阴影矩形框,从头到四肢标注完每个人的骨骼点。最后,将近 600 个点密密麻麻地落在了这张图里。

在这个她形容为「经历绝望」的过程中,她尝试用眼药水来缓解疲劳,但滴过后会不停流眼泪,直到她换了种方式,靠不停揉眼睛来放松。杜霖说:有些任务图上密密麻麻的点,看两个小时以上眼睛绝对会花掉了,但他会要求员工不断克服人本身的一些「消极因素」,才能避免标错数据成为「漏网之鱼」。

联合国教科文组织信息与传播知识社会局主任英德拉吉特·班纳吉认为,到 2030 年,人工智能将向世界经济贡献 16 万亿美元。从 2016 年人工智能逐渐走热以来,任何行业都想搭上这个热潮,投资人的评价是「每个商业计划书上都要加上人工智能」。进入深度学习「死胡同」的人工智能需要标注的领域也带来越来越多:机场安检时新增的人脸识别、能识别选取商品的无人便利店、能安全行驶的无人驾驶等。

揭秘 AI 风口下的数据标注生意|深度

新兴市场带来了大量劳动力的涌入。「原来干淘宝刷单的,现在也能摇身一变做 AI 数据标注。」杜霖说,「在提供无差别人力劳动这件事上,大家是没有门槛的。」

在河北衡水,由于当地政府查污染严重导致化工制品停产,26 岁的小苏就带着原先 30 多人的销售团队转行数据标注,队员小的到 20 出头,老至年近不惑。虽然他早就知道河北做数据标注的团队已经非常多,并且有的团队已经垮掉,但人工智能的火热和数据标注的低门槛还是让他决定一搏。

高中学历是小苏在招人时的最高期望,「高中生花一天做的工作,初中生可能需要花五天,差别很大。」行业中,小苏的招聘标准已经算是较高水平,那些投身数据标注的兼职者学历更加良莠不齐。在某些众包平台上,有的标注者只有小学文凭,在东北还有一部分有听力障碍的残疾人标注团队,而北京的全职工厂中的最高学历是大专或者中专。

欣博友数据标注公司市场部经理周京平认为,一个老农民在标注方言语音时可能会比不使用这种语言的大学生还好。同所有的人力密集型产业一样,人人都能在此觅得一份营生。

人工智能专业方向的硕士生毛毛认为,能不能达到理想标注精度和学历没什么关系,而且操作非常简单,只要教一下,谁都能做。她也曾做过兼职数据标注,在所给的图片中她需要辨别出不同角度的花菜、菠菜等。一星期后,她标注了一万张图,没有一张返工,每张报酬一毛钱。但她「打死也不会再做这个工作了」,因为「实在太重复」。

看似简单的操作,要达到 90% 的精度对于大多数标注者来讲却是天方夜谭。小苏所接触到的兼职标注团队最高精度只能达到 70%,即便是在全职和全把控的情况下,他们第一次项目只达到了 50% 的精度,基本上承接的每个项目他们都需要重复三次以上才能达到 90% 的精度。

如果用于训练模型的数据精度低于 90%,就像小孩儿拿到的一年级数学课本里头写的是一加一等于三。一开始就教错,机器学习和人工智能就只剩下指鹿为马。

数字富士康

2014 年冬天,山东蓬莱积起了厚厚的雪。小雪每天都要不情愿地钻出被窝,趟着大雪走到一家汽车工厂去插线。在固定工位站好后,她根据形状将面前充满不同插口的集成器及一堆接口各异的汽车线路一一匹配好,完成后迅速将其交给下一个人,再重复刚才的动作,直到下班。小雪知道,自己站一整天的工作只是整个工厂里头很小的一部分。

相比那年冬天,她更喜欢现在的工作,数据标注工厂里,她有接近两百个同事,大家能坐在属于自己的工位上干活。在给用于智能驾驶采集的图片做标注时,小雪需要选取一个可以画出 2D 框的标注工具(即是可以根据不同物体拖动出不同形状的画框),把图片中所有的机动车、非机动车、行人、红绿灯等标注出来。

同在汽车工厂流水线上的工作相比,眼前的键盘鼠标显示器替代了嗡嗡作响的流水线,从早上 8 点到晚上 5 点,小雪除了拽动鼠标外什么都不用想,重复一个动作就行,变化的只有眼前不同的图片——但这对小雪来说,工作中的新鲜感已经足够。

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

责任编辑:青岛人