36氪首发 | 「星尘数据」获Pre-A轮融资,用算法提高数据标注效率

徐宁·2018-06-19 19:44
数据的需求贯穿AI公司的各阶段,占公司支出10%-20%左右。

Stardust星尘数据”是一家数据标注公司。2017年5月公司注册成立,同年8月获得数百万元的天使轮投资,由天使湾领投,英诺天使、老鹰基金和创势基金跟投。此后于2018年1月,公司又完成了数千万元的Pre-A轮融资,由青锐创投投资。


AI要真正发挥作用,优质的数据必不可少,业界共识“大量数据+普通模型”比“普通数据+高级模型”的准确度更高。所以,前端的数据采集、加工环节单拎出来成为了新的机会点。目前这个赛道有三类玩家自营标记人员——标记质量可控,有新的需求也可及时响应消化,但模式太重,成本较高,规模化扩张不易;众包标记——为了保证需求的响应,人员数量得足够大,通常成千上万。随之而来的问题是要搭建上百人的运营团队,派专人做项目管理;③机器标记——相比前两者,这类更加依赖算法、模型,希望借系统提供人效。

星尘数据”便属于第三类玩家。首先,通过系统对人进行管控,根据人员的标记水平分派不同等级的任务,从而提高运营效率。其次,标注工具易用性更佳,而不是直接用开源或者AI公司提供的工具,这样一来还能跟整个标注流程、绩效管理融合。再者,星尘用深度学习的模型辅助标注,已经可以做到对100多种物体识别标注,从而减少人的工作量。

据悉,通过星尘的“stardust”系统,人的工作量在80%,机器的工作量在20%,这个比例还在不断优化中,未来机器可能占到80%。

在36氪之前的文章中有创业者表示不会用机器标注替代人工,“因为人工标记的数据在误差层面符合正态分布,而机器标记的都是同一水平,用机器生产的数据再训练机器,并不利于AI最后的训练效果。”以及,理论上,下游的应用公司算法更强,若用算法进行抠图,企业客户为什么不自己标注?

对此,星尘数据创始人兼CEO章磊认为,人工标注确实会有偏差,但这种偏差并不会有助于机器训练。准确答案只有一个,星尘可以通过算法机制保证输出正确结果,目前的准确率在99%。并且,下游应用公司的最终模型和标注时需要的模型还是不一样的,星尘的模型是用来提高效率的。

据章磊透露,在上次我们报道完星尘之后,团队已从10人左右扩张到20人左右,基本为研发人员。而公司现处于稳步拓客阶段,已经服务了几十家AI企业。目前拓客速度主要受限于平台功能,所以公司在不断迭代、完善产品,未来1-2个月便可发布。

随着公司发展,章磊对数据标记这个行业也有了一些新的思考:

第一,一味强调众包人员的数量,意义并不大。因为对C端来说,数据标记是一个没有忠诚度的事情,他们是价格敏感群体,哪里赚钱多就去哪里干活。所以提高效率,让收入增多才是留住人员的上策。

第二,对B端企业来说,粘性也不是很大。他们最关注的是质量、价格,而市面上的标记质量相差不大,“便宜”就显得格外重要。这时候就需要用系统、机器来降低人力成本。

此外,在客户案例上,星尘也从前端只提供数据层面,延伸到一些解决方案。比如,一家监控视频企业想要做到对“幼儿园暴力行为”的监控,此前的方案是将视频进行每1分钟截图,然后标注画面中的几十人的动作,这样算下来,需要千万元级别的数据标注成本,并且1分钟的间隔也相对较长,不免会漏查。

“我们的解决方案是将关键帧进行标注,把视频的关键信息标出后,通过视频压缩方案是可以还原出前后文的内容。是否有暴力倾向需要人工拖拽查看,我们交付的不是画面标注,而是有关键帧、可拖拽的视频标注。然后做了预测功能,把系数设低,平台发现稍微有暴力可能性就标注出来,然后让人去判断。通过我们的方案,只需要原来三分之一的成本。”章磊告知。

据悉,本次融资后,除了继续迭代产品,星尘数据还计划尝试将一些现成的数据包开源。公司方面则计划于今年9月进行下一轮融资。

(如果你对该公司感兴趣,简历请戳 resume@stardust.ai


+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

这些工具能够准确地预测症状和疾病,给人带来希望的同时,也带来一些警示。

2018-06-19

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业