导读:数据标注正在打开一个新的商业通路。最近一段时间,ChatGPT蹿红,引起一阵狂欢。上一次AI行业这么热闹,可能还是Alpha Go击败李世石。落到产业端,ChatGPT能给自动驾驶带来什么?是大家更关注的话题。
几天前,自动驾驶技术公司毫末智行宣布,将自动驾驶认知大模型升级为DriveGPT。这一个动作,让我们看到了受ChatGPT鼓舞,自动驾驶圈对于AI突破性的想象和期待。
ChatGPT实现的技术支撑是 Transformer大模型以及人类反馈强化学习(RLHF)。其实早在2019年,特斯拉就将Transformer大模型引入到自动驾驶,而在今年年初,毫末也曾表示要借鉴ChatGPT的实现思路,打造人驾自监督认知大模型。
而不论是ChatGPT的突破,还是自动驾驶算法的进化,都离不开一个底层逻辑——基于海量数据的深度学习。这些数据不能是杂乱的,而是需要经过处理的数据,这样才能够帮助算法进行定向学习。
可以说,AI进化的需求,正在带火一个行业——数据标注。
数据标注是一个非常有意思的行业,你可以说它高大上,因为它是人工智能的“老师”,你也可以说它接地气,因为它是一个劳动密集型行业。
这种链接正在打开一个新的商业通路。
近日,我们访谈了数据标注公司恺望数据创始人兼CEO于旭、恺望数据产品项目副总裁张鹏。以恺望数据为案例,我们来聊一聊自动驾驶数据标注的行业痛点及前景。
恺望数据创始人兼CEO于旭及团队
一、数据标注行业走向垂直化、专业化
数据、算力和算法是AI发展的三大基石。数据相当于AI算法的“饲料”,AI学习都要用标注好的数据进行训练,只有经过大量的训练,覆盖尽可能多的场景才能得到一个好的模型。
数据标注是开发机器学习 (ML) 模型时预处理阶段的一部分,它需要识别原始数据并添加标签为机器学习模型指定上下文,帮助其做出准确的预测。
由于近几年AI快速发展,催生了大量数据标注公司。据于旭介绍,目前,这个行业还处于比较分散的早期阶段,大概存在700-800个玩家。
数据标注在有着市场高需求的同时,也面临着诸多挑战,比如成本高、效率差、标注质量参差不齐、市场需求不稳定等。
这两年,随着AI商业化落地加快,数据标注行业也正在走向规范化发展的阶段。
于旭谈到,数据标注正在朝着聚焦垂直化领域、专业化服务的方向发展。同时,数据标注产业正在由单模态向多模态标注发展,这将带来更多机会。
此外,人工标注与自动标注相结合,提升质量和效率,将是行业发展的大趋势。
二、95%自动驾驶数据标注依赖人工
自动驾驶正在进入到技术深水区,一些业内专家认为,基础科学的突破才能带来自动驾驶真正的质变。
ChatGPT正在打开一个思路,大模型训练或许能带来自动驾驶的突破。
数据标注的质量和数量对算法迭代产生重要影响,标注数据的数量越多、质量越高,模型的训练和性能优化就越充分,性能就越好。
随着对自动驾驶商业化落地的需求,自动驾驶数据标注的需求正在逐年攀升。据张鹏介绍,目前,数据标注以人工标注为主,机器标注为辅。而从整个自动驾驶行业的普遍水平来看,可以说,95%的数据标注还是以人工为主。
随着算法模型的不断进化,大模型训练将越来越多地引领数据标注走向自动化,这会是一个明确的趋势。
但这会是一个相当长的过程,于旭认为,时间周期可能在10-15年。
此外,大模型虽好,但需要大算力支撑,动辄就是数千万、甚至上亿级的投入,并不是每个企业都能玩得转。
因此,恺望数据认为,自动标注与人工标注相结合,才是更具性价比的方案。
于旭谈到,对自动驾驶数据生产而言,目前还离不开人力的阶段,但未来最终还是会实现完全的自动化:
“就像是自动驾驶最终会走向L4、L5,但中间会经历L2、L3,但L2、L3的经验、可以使最终形态的自动驾驶更准确更科学的实现,人工智能一定是需要一个基于数据进行积累和建模、最终全面自动化和智能化的过程。这个不会是一簇即就,而是需要逐步实现。”
她进一步表示,OpenAI用7年时间孕育了ChatGPT,在此之前,经历了规模极大、基于人的数据,不断的建模与优化。
科技公司领先技术的应用,最终还要面对解决交付、量产等商业化落地的考验。
虽然人工智能是热门焦点,也是大势所趋,但从目前的实际的产业应用来看,在自动驾驶数据生产领域,多个环节都仍依赖”人为判断及行为“在主导。
她认为,在目前阶段,需要以自动化为目标,根据自动驾驶数据生产流程各环节的规则和逻辑、基于人的模式建模,逐步推动将数据生产从”成熟的人工模式“转化为”成熟的人工智能模型“,解决大规模供应和成本的效益匹配问题。
因此,规模化的人力数据和经验在现阶段就非常重要。
三、提质降本是行业当前核心痛点
算法模型的训练依赖人工标注,最终目标是取代人工标注。自动驾驶真正的成熟还有相当时日,因此这门生意的逻辑是成立的。
自动驾驶数据生产依赖规模化的人力供给,波峰波谷的人效配置及稳定、优质数据供应问题一直是行业内的最大问题。
对于赛道玩家来讲,一个核心痛点在于上游需求散,下游产能不稳定,在上下游管理上都存在优化空间。
另一个痛点在于,数据标注是一个价格敏感的行业,在保障数据处理质量同时做到降本,是整个行业的期待方向。
也就是说,需求方的痛点在于如何降成本,供给方则希望能够稳定、规范化、可持续的推进业务。两方的需求都有赖于行业规范化。
数据生产流程包括对需求规则的解读、数据任务拆分、人员匹配,也包括在生产管理过程进行产能监管、质量监管、效率监管,有些部分可以实现全自动化,但有些部分、尤其是需要人为判断的部分,还有待更多成熟的模型建成,才能逐步实现自动化。
目前在行业内的技术方案,多数是关注解决预标注这个环节的效率,而恺望数据认为,现阶段要持续实现稳定的低价数据供应,关键是在通过“自动化技术+人力运营管理”的部署,来提升全生产及管理流程的全局效率,进一步提供规模化的稳定低价数据供应。
目前,恺望数据从两方面入手来解决这个痛点。
一方面,基于“自动化产线+规模化人力”策略,恺望数据推出了自动化数据产线,通过SaaS平台、算法、各板块建模等工具,将每个版块原子化拆分,进而优化每个环节效率。据介绍,目前已可以实现成本降低超过20%。
另一方面,为了保证人力资源的规模化、稳定性,恺望数据也在推进校企生态合作,与全国20多家实训基地建立了合作,培训逾千位数据标注员。
可以说,ChatGPT拉火了整个AI赛道,并将带动上下游企业快速发展,站在创业的风口上,像恺望数据一样的创业公司,能够在这一波浪潮下,创造出什么样的新模式和新价值,还是非常值得期待的。
来源:赛博汽车 作者:肖莹