奇瑞官网
当前位置:首页 > 无人驾驶 > 正文

从ChatGPT到DriveGPT,自动驾驶大模型背后的数据标注生意

发布日期:浏览量:4134

导读:数据标注正在打开一个新的商业通路。最近一段时间,ChatGPT蹿红,引起一阵狂欢。上一次AI行业这么热闹,可能还是Alpha Go击败李世石。落到产业端,ChatGPT能给自动驾驶带来什么?是大家更关注的话题。

几天前,自动驾驶技术公司毫末智行宣布,将自动驾驶认知大模型升级为DriveGPT。这一个动作,让我们看到了受ChatGPT鼓舞,自动驾驶圈对于AI突破性的想象和期待。

ChatGPT实现的技术支撑是 Transformer大模型以及人类反馈强化学习(RLHF)。其实早在2019年,特斯拉就将Transformer大模型引入到自动驾驶,而在今年年初,毫末也曾表示要借鉴ChatGPT的实现思路,打造人驾自监督认知大模型。

而不论是ChatGPT的突破,还是自动驾驶算法的进化,都离不开一个底层逻辑——基于海量数据的深度学习。这些数据不能是杂乱的,而是需要经过处理的数据,这样才能够帮助算法进行定向学习。

可以说,AI进化的需求,正在带火一个行业——数据标注。

数据标注是一个非常有意思的行业,你可以说它高大上,因为它是人工智能的“老师”,你也可以说它接地气,因为它是一个劳动密集型行业。

这种链接正在打开一个新的商业通路。

近日,我们访谈了数据标注公司恺望数据创始人兼CEO于旭、恺望数据产品项目副总裁张鹏。以恺望数据为案例,我们来聊一聊自动驾驶数据标注的行业痛点及前景。

恺望数据创始人兼CEO于旭及团队

一、数据标注行业走向垂直化、专业化

数据、算力和算法是AI发展的三大基石。数据相当于AI算法的“饲料”,AI学习都要用标注好的数据进行训练,只有经过大量的训练,覆盖尽可能多的场景才能得到一个好的模型。

数据标注是开发机器学习 (ML) 模型时预处理阶段的一部分,它需要识别原始数据并添加标签为机器学习模型指定上下文,帮助其做出准确的预测。

由于近几年AI快速发展,催生了大量数据标注公司。据于旭介绍,目前,这个行业还处于比较分散的早期阶段,大概存在700-800个玩家。

数据标注在有着市场高需求的同时,也面临着诸多挑战,比如成本高、效率差、标注质量参差不齐、市场需求不稳定等。

这两年,随着AI商业化落地加快,数据标注行业也正在走向规范化发展的阶段。

于旭谈到,数据标注正在朝着聚焦垂直化领域、专业化服务的方向发展。同时,数据标注产业正在由单模态向多模态标注发展,这将带来更多机会。

此外,人工标注与自动标注相结合,提升质量和效率,将是行业发展的大趋势。

二、95%自动驾驶数据标注依赖人工

自动驾驶正在进入到技术深水区,一些业内专家认为,基础科学的突破才能带来自动驾驶真正的质变。

ChatGPT正在打开一个思路,大模型训练或许能带来自动驾驶的突破。

数据标注的质量和数量对算法迭代产生重要影响,标注数据的数量越多、质量越高,模型的训练和性能优化就越充分,性能就越好。

随着对自动驾驶商业化落地的需求,自动驾驶数据标注的需求正在逐年攀升。据张鹏介绍,目前,数据标注以人工标注为主,机器标注为辅。而从整个自动驾驶行业的普遍水平来看,可以说,95%的数据标注还是以人工为主。

随着算法模型的不断进化,大模型训练将越来越多地引领数据标注走向自动化,这会是一个明确的趋势。

但这会是一个相当长的过程,于旭认为,时间周期可能在10-15年。

此外,大模型虽好,但需要大算力支撑,动辄就是数千万、甚至上亿级的投入,并不是每个企业都能玩得转。

因此,恺望数据认为,自动标注与人工标注相结合,才是更具性价比的方案。

于旭谈到,对自动驾驶数据生产而言,目前还离不开人力的阶段,但未来最终还是会实现完全的自动化:

“就像是自动驾驶最终会走向L4、L5,但中间会经历L2、L3,但L2、L3的经验、可以使最终形态的自动驾驶更准确更科学的实现,人工智能一定是需要一个基于数据进行积累和建模、最终全面自动化和智能化的过程。这个不会是一簇即就,而是需要逐步实现。”

她进一步表示,OpenAI用7年时间孕育了ChatGPT,在此之前,经历了规模极大、基于人的数据,不断的建模与优化。

科技公司领先技术的应用,最终还要面对解决交付、量产等商业化落地的考验。

虽然人工智能是热门焦点,也是大势所趋,但从目前的实际的产业应用来看,在自动驾驶数据生产领域,多个环节都仍依赖”人为判断及行为“在主导。

她认为,在目前阶段,需要以自动化为目标,根据自动驾驶数据生产流程各环节的规则和逻辑、基于人的模式建模,逐步推动将数据生产从”成熟的人工模式“转化为”成熟的人工智能模型“,解决大规模供应和成本的效益匹配问题。

因此,规模化的人力数据和经验在现阶段就非常重要。

三、提质降本是行业当前核心痛点

算法模型的训练依赖人工标注,最终目标是取代人工标注。自动驾驶真正的成熟还有相当时日,因此这门生意的逻辑是成立的。

自动驾驶数据生产依赖规模化的人力供给,波峰波谷的人效配置及稳定、优质数据供应问题一直是行业内的最大问题。 

对于赛道玩家来讲,一个核心痛点在于上游需求散,下游产能不稳定,在上下游管理上都存在优化空间。

另一个痛点在于,数据标注是一个价格敏感的行业,在保障数据处理质量同时做到降本,是整个行业的期待方向。

也就是说,需求方的痛点在于如何降成本,供给方则希望能够稳定、规范化、可持续的推进业务。两方的需求都有赖于行业规范化。

数据生产流程包括对需求规则的解读、数据任务拆分、人员匹配,也包括在生产管理过程进行产能监管、质量监管、效率监管,有些部分可以实现全自动化,但有些部分、尤其是需要人为判断的部分,还有待更多成熟的模型建成,才能逐步实现自动化。

目前在行业内的技术方案,多数是关注解决预标注这个环节的效率,而恺望数据认为,现阶段要持续实现稳定的低价数据供应,关键是在通过“自动化技术+人力运营管理”的部署,来提升全生产及管理流程的全局效率,进一步提供规模化的稳定低价数据供应。

目前,恺望数据从两方面入手来解决这个痛点。

一方面,基于“自动化产线+规模化人力”策略,恺望数据推出了自动化数据产线,通过SaaS平台、算法、各板块建模等工具,将每个版块原子化拆分,进而优化每个环节效率。据介绍,目前已可以实现成本降低超过20%。

另一方面,为了保证人力资源的规模化、稳定性,恺望数据也在推进校企生态合作,与全国20多家实训基地建立了合作,培训逾千位数据标注员。

可以说,ChatGPT拉火了整个AI赛道,并将带动上下游企业快速发展,站在创业的风口上,像恺望数据一样的创业公司,能够在这一波浪潮下,创造出什么样的新模式和新价值,还是非常值得期待的。

来源:赛博汽车 作者:肖莹


版权说明:“华夏EV网”转载作品均注明出处,本网未注明出处和转载的,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如转作品侵犯署名权,或有其他诸如版权、肖像权、知识产权等方面的伤害,并非本网故意为之,在接到相关权利人通知后将立即加以更正。

文章标签:

本文网址:http://www.evinchina.com/articleshow-488.html

分享到:
相关文章
  • 2023年中国主流智驾公司业务进展梳理
    导读:2023年智驾赛道,几家欢喜,几家难。本文梳理了37家国内主流智能驾驶公司2023年业务进展,覆盖L2+量产智驾、Robotaxi、无人干线物流、无人港...
    浏览量:5949
  • 文远知行获新加坡T1、M1自动驾驶牌照
    导读:12月11日,文远知行宣布获得新加坡Milestone1无人驾驶车辆第一级别公共道路测试牌照(简称“M1牌照”)及T1Assessment无人驾驶车辆第一...
    浏览量:3027
  • 滴滴自动驾驶展现未来出行新趋势
    导读:一辆辆白色的自动驾驶网约车在城市街道中灵活穿梭,派单、接驾、行程中、到站、回港、充电,自动化运营一气呵成。这是2023广州国际车展上,...
    浏览量:2959
  • 文远小巴和文远环卫车在大连正式投入运营
    导读:近日,我们从文远知行官方处获悉,其在大连高新区的车联网无人驾驶示范项目经过180天的测试后,于日前首发运营。其中,文远知行无人驾驶小巴...
    浏览量:3840
查看更多