最近,苦逼的 AI 数据标注行业火了,是由于以下三则融资:
1. ScaleAI:被 Meta 300 亿美金估值收购 49% 股权,28 岁创始人 Alexander 加入 Meta
2. Mercor:创立两年估值 20 亿美金,据说还拒了 100 亿美金估值的投资,其印度创始人 Foody 只有 21 岁
3. SurgeAI:行业老二也爆出来要融资 10 亿美金,估值 150 亿
其实,AI 数据标注的商业模式非常的简单:攒人 + 作业平台 + 标数据,是一个 1/3 智力密集型 + 2/3 劳动密集型的生意。一般来讲,这样的生意很适合中国,美国做这行的也都是华人或印度人。但市场现状上,中美差距很大:
美国:25 年 Scale AI 15-20 亿美金收入,Surge/Mercor/turing 都在 2-4 亿美金
中国:最大的也就 1-2 亿人民币人收入。海天瑞声是语音,小咖帮主要供人头,还有一堆 16 年做自动驾驶标注起家的。目前没有任何一家能和 scaleAI 对标的。
问题来了,为什么中国没有 ScaleAI 呢?
核心原因有三个:
1. 中国模型厂都是蒸馏厂。能轻松的蒸馏别人现成的,干嘛还要费时费力做 human-data 呢?尤其在 Deepseek R1 证明了 longcot 蒸馏路线可行后,国内大厂的蒸馏已经到了非常夸张的程度。主打一个等待 OpenAI 更新,你更新一次,我就刷一次数据。一个有趣的例子,24 年 O1 发布前,GPT4 一直没更新,直接导致某家模型一直原地踏步。
2. 中国大厂自建了 human-data 团队,吃掉了三方服务商的市场。互联网大厂倾向啥都干,本来就有规模化的运营团队,比如抖音内容审核,所以很自然生长出内部的 human-data 团队。规模大的自建团队在 1-2 千人,支出在 3-4 亿,几个大厂合计有 10 亿,那自然外部就没生意了。
3. 数据安全。ScaleAI 给 OpenAI 标的数据会不会卖给 Google?答案是不会,靠的是法律约束。但国内公司能不能抵住一份数据卖多家的诱惑呢?很难。你能做到,大厂也不信,因为他们自己就在不合规的蒸馏别人模型。即便数据本身保护住了,数据 knowhow 也无可避免的会传播出去。ScaleAI 能在一个壁垒不够高的赛道,做到第二名的 5x 规模,核心原因是大家想找它学习 OpenAI 的经验。所以国内大厂一定会自己做,甚至 meta 都开始收购 scaleai 了。
以上三个原因导致了市场需求的萎缩,而优秀的数据标注公司是需要和大厂紧密合作才能不断打磨工艺的,这反过来导致市场没有优秀的供给。即便现在大厂想找外部公司做,也找不到合格的供应商。
所以中国目前没有 ScaleAI,只剩下做低端自动驾驶 / 语音标注的公司以及供人头的服务商。
那么往后看,会有变化吗?
1. 蒸馏的比例会下降,留出 human-data 的空间。不夸张的讲国内 post-train 数据 99% 都是蒸馏的,几乎不能再提升了,这有两个问题:
一是合规,老美也不傻,这样的明牌抄袭可能随时被监管。
二是天花板,蒸馏只能 follow 别人,不能明显超过别人,拓展模型能力边界还是要蒸馏更高质量的人类专家。
2. 数据需求越来越难,大厂传统的自建模式会逐步萎缩。现在大模型高考数学都 140 了,普通人已经没法给大模型标数据了。目前模型需要的是物化生的竞赛题、金融 / 法律 / 医疗的专业数据,但不可能招聘几百个竞赛金牌选手、券商分析师、律师来做全职。但兼职是可以的,整个行业会像海外一样,从全职主导向兼职主导发展。当然大厂也可以转型兼职模式,字节已经在做了。
3. 数据安全的诉求不会有变化。三方服务商要么卖成品数据集,要么在大厂的平台上作业,可能不会让三方服务商独立完成数据任务。
总的来说,中国会有 AI 数据标注的市场,但受制于以上的种种原因,最多就能长出 1/10 的 ScaleAI。(30 亿美金也不小?)
最后,不确定的是 human-data 的需求到底有多少,延伸的三个问题供大家讨论:
1. 对智能的需求是无止境的,所以对数据的需求也是无止境的?
2. Scaling law 下对数据的需求是指数增加的,对 human data 的需求也是指数增加的吗?
3. 数据需求方除了 foundation model 大厂,还有没有别人?垂直模型是否有价值和数据需求?
We’ll see
来源:皮皮鹏
没有评论:
发表评论