|

财经

字节推出爬虫机器人 大厂为获得训练数据都用了哪些招数

来源:21世纪经济报道

2024-10-09 20:35:14

(原标题:字节推出爬虫机器人 大厂为获得训练数据都用了哪些招数)

21世纪经济报道记者 王俊 实习生 李婉霞 北京报道

字节跳动的网络爬虫机器人Bytespider最近在圈内引发了讨论,原因在于其攫取数据的速度与能力。

据Kasada的研究显示,Bytespider是OpenAI爬虫机器人GPTbot抓取速度的25倍,是Anthropic爬虫机器ClaudeBot抓取速度的3000倍。

字节跳动的Bytespider已迅速成为互联网上最激进的抓取工具之一,这也说明了字节对训练数据的饥渴。训练数据是构建和优化 AI 模型的基石,是大模型成长的基础和驱动力。随着AI赛道的竞争日趋激烈,训练数据需求量与质量要求也水涨船高。

不仅是字节,各个平台巨头都在训练数据模块发力。

疯狂爬虫遭抵制

字节的爬虫机器人Bytespider并非新面孔,据媒体报道,其发布于今年4月。近期,Kasada首席执行官Sam Crowther表示,Bytespider数据抓取速度约是为ChatGPT爬虫机器的GPTbot抓取速度的25倍,是另一家独角兽Anthropic负责运营Claude平台的ClaudeBot抓取速度的3000倍,且Bytespider抓取活动在一段时间内每周都会大幅增加。

这背后原因可能在于通过加速收集海量数据,快速积累训练生成式AI模型所需的数据来优化更新其大模型,缩小与竞争对手的差距。同时,据报道,该举措也可提升TikTok的搜索功能,为广告商与营销人员提供便利,帮助他们实时搜索热门词汇与使用相关关键词制作广告。

更往前追溯,故事也是押韵的。早在字节跳动优化今日头条业务时,也曾陷入网络爬虫争议,因高频、无节制抓取导致中小网站瘫痪。彼时,今日头条成立搜索部门,想要通过全网搜索弥补站内优质内容贫乏的困境。

其实,爬虫技术广泛应用于搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等多个领域。AI时代,为给大模型“喂”数据,科技公司从各个渠道搜刮数据,直观反应就是过去一两年间,网络爬虫激增,带来了诸多争议。

字节这次网络爬虫,遭到了Servebolt的抵制。Servebolt称,爬虫机器人经常无视爬虫协议(robots.txt);这些机器人会向服务器发送数百万个请求,每秒向网站发送 5 个请求,使服务器负担过重,很难被检测到并有效阻止。

此外,它们还采用策略来逃避速率限制,这使得 Servebolt 等托管服务提供商难以有效管理其流量。

训练数据补给是刚需

这并非字节自己的问题。

今年7月,AI独角兽Anthropic公司利用其爬虫工具ClaudeBot,无视网站许可协议,疯狂地访问抓取美国电子商务和指南网站iFixit的数据,导致后者服务器被严重占满。面对iFixit公司CEO的公开指责,Anthropic公司的回应完全回避自己的爬虫工具“未经允许”的问题。

上述Servebolt在抵制字节Bytespider的同时,也抵制了ClaudeBot。

疯狂爬虫背后是对训练数据的刚需。训练数据数量有助于深度学习模型性能的提升,可以看到,各个科技公司为了拿到训练数据纷纷发力。

21世纪经济报道记者梳理发现,OpenAI创建了Whisper语言识别工具,通过转录Youtube视频音频生成新的对话文本,用于GPT-4的数据训练;谷歌将日常使用的Google Docs、sheets、slides等工具中产生的数据用以训练,并通过调整隐私政策来扩大数据源;Meta通过购买出版商以提升文本数据质量,并在一定程度上规避了侵权风险;Photobucket采取回溯策略,从过去数据中寻找价值,拓宽了数据来源。

国内科技公司,腾讯通过形成包含10亿个不同人格信息的Persona Hub,生成多种类型文本信息与训练数据;华为则推出了AI数据湖解决方案,致力于实现数据要素流通,帮助企业打破数据孤岛,提供更为广泛的数据支持。

这次故事的重点:爬虫,作为最简单粗暴获取数据手段,当前因无视协议、利益分配不均等原因正遭到抵制。

近期,人工智能专家吴恩达在网站The Batch上提及了一篇有关数据许可的研究,研究发现C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议, 开放数据获取变得愈发困难。

各种网站正在快速在收紧他们的许可协议,是数据持有方的反扑,也是AI公司疯狂“攻城略地”时忽视数据持有者利益的反噬。如何寻找合理的训练数据获取方案,是各个科技公司的共同课题。

fund

首页 股票 财经 基金 导航