字节推出爬虫机器人大厂为获得训练数据都用了哪些招数

来源：21世纪经济报道

2024-10-09 20:35:14

（原标题：字节推出爬虫机器人大厂为获得训练数据都用了哪些招数）

21世纪经济报道记者王俊实习生李婉霞北京报道

字节跳动的网络爬虫机器人Bytespider最近在圈内引发了讨论，原因在于其攫取数据的速度与能力。

据Kasada的研究显示，Bytespider是OpenAI爬虫机器人GPTbot抓取速度的25倍，是Anthropic爬虫机器ClaudeBot抓取速度的3000倍。

字节跳动的Bytespider已迅速成为互联网上最激进的抓取工具之一，这也说明了字节对训练数据的饥渴。训练数据是构建和优化 AI 模型的基石，是大模型成长的基础和驱动力。随着AI赛道的竞争日趋激烈，训练数据需求量与质量要求也水涨船高。

不仅是字节，各个平台巨头都在训练数据模块发力。

疯狂爬虫遭抵制

字节的爬虫机器人Bytespider并非新面孔，据媒体报道，其发布于今年4月。近期，Kasada首席执行官Sam Crowther表示，Bytespider数据抓取速度约是为ChatGPT爬虫机器的GPTbot抓取速度的25倍，是另一家独角兽Anthropic负责运营Claude平台的ClaudeBot抓取速度的3000倍，且Bytespider抓取活动在一段时间内每周都会大幅增加。

这背后原因可能在于通过加速收集海量数据，快速积累训练生成式AI模型所需的数据来优化更新其大模型，缩小与竞争对手的差距。同时，据报道，该举措也可提升TikTok的搜索功能，为广告商与营销人员提供便利，帮助他们实时搜索热门词汇与使用相关关键词制作广告。

更往前追溯，故事也是押韵的。早在字节跳动优化今日头条业务时，也曾陷入网络爬虫争议，因高频、无节制抓取导致中小网站瘫痪。彼时，今日头条成立搜索部门，想要通过全网搜索弥补站内优质内容贫乏的困境。

其实，爬虫技术广泛应用于搜索引擎、内容聚合、电子商务比价或市场研究、社交媒体舆情监测、竞争情报分析等等多个领域。AI时代，为给大模型“喂”数据，科技公司从各个渠道搜刮数据，直观反应就是过去一两年间，网络爬虫激增，带来了诸多争议。

字节这次网络爬虫，遭到了Servebolt的抵制。Servebolt称，爬虫机器人经常无视爬虫协议（robots.txt）；这些机器人会向服务器发送数百万个请求，每秒向网站发送 5 个请求，使服务器负担过重，很难被检测到并有效阻止。

此外，它们还采用策略来逃避速率限制，这使得 Servebolt 等托管服务提供商难以有效管理其流量。

训练数据补给是刚需

这并非字节自己的问题。

今年7月，AI独角兽Anthropic公司利用其爬虫工具ClaudeBot，无视网站许可协议，疯狂地访问抓取美国电子商务和指南网站iFixit的数据，导致后者服务器被严重占满。面对iFixit公司CEO的公开指责，Anthropic公司的回应完全回避自己的爬虫工具“未经允许”的问题。

上述Servebolt在抵制字节Bytespider的同时，也抵制了ClaudeBot。

疯狂爬虫背后是对训练数据的刚需。训练数据数量有助于深度学习模型性能的提升，可以看到，各个科技公司为了拿到训练数据纷纷发力。

21世纪经济报道记者梳理发现，OpenAI创建了Whisper语言识别工具，通过转录Youtube视频音频生成新的对话文本，用于GPT-4的数据训练；谷歌将日常使用的Google Docs、sheets、slides等工具中产生的数据用以训练，并通过调整隐私政策来扩大数据源；Meta通过购买出版商以提升文本数据质量，并在一定程度上规避了侵权风险；Photobucket采取回溯策略，从过去数据中寻找价值，拓宽了数据来源。

国内科技公司，腾讯通过形成包含10亿个不同人格信息的Persona Hub，生成多种类型文本信息与训练数据；华为则推出了AI数据湖解决方案，致力于实现数据要素流通，帮助企业打破数据孤岛，提供更为广泛的数据支持。

这次故事的重点：爬虫，作为最简单粗暴获取数据手段，当前因无视协议、利益分配不均等原因正遭到抵制。

近期，人工智能专家吴恩达在网站The Batch上提及了一篇有关数据许可的研究，研究发现C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，开放数据获取变得愈发困难。

各种网站正在快速在收紧他们的许可协议，是数据持有方的反扑，也是AI公司疯狂“攻城略地”时忽视数据持有者利益的反噬。如何寻找合理的训练数据获取方案，是各个科技公司的共同课题。

特别推荐

深蓝汽车月交付创新高难掩窘境：新车销售接连遇挫，销量与盈利考验犹存

证券之星资讯

2024-10-09

A股暴跌，原因找到！重磅利好已在路上

证券之星资讯

2024-10-09

打新必看 | 三季度IPO市场环比“回暖”

证券之星资讯

2024-10-09

首页股票财经基金导航

举报专区联系我们

字节推出爬虫机器人大厂为获得训练数据都用了哪些招数

疯狂爬虫遭抵制

训练数据补给是刚需

相关个股

相关阅读

特别推荐

字节推出爬虫机器人 大厂为获得训练数据都用了哪些招数

疯狂爬虫遭抵制

训练数据补给是刚需

相关个股

相关阅读

特别推荐

字节推出爬虫机器人大厂为获得训练数据都用了哪些招数