您正在访问亚汇网香港分站,本站所提供的内容均遵守中华人民共和国香港特别行政区法律法规。

维基媒体基金会:为 AI 训练数据集抓取资源的网络爬虫正带来运营开支压力

文 / 小亚 2025-04-03 23:02:01 来源:亚汇网

感谢亚汇网网友维基百科的姊妹项目维基共享资源(亚汇网注:WikiCommons)存储着大量可用于AI模型训练的多媒体资料集。根据统计数据,自2024年1月以来从维基共享资源下载多媒体内容的带宽增长了50%,而这一变化趋势主要由自动化程序而非人类操作导致。维基媒体基金会此前有能力应对突发事件导致的人类用户的流量激增,但AI时代自动爬虫活动的日益频繁正不断侵蚀该组织现有的冗余度,让基金会将大量时间和资源用于响应非真人流量。维基媒体基金会的数据存储的模式是低使用频率内容仅存放在核心数据中心,而高频请求的数据则将在更邻近的数据中心提供备份。自动爬虫的“遍历式”查询方式意味着其有更多的流量发送到核心数据中心,这带来了更高的流量成本。根据维基媒体基金会的统计,机器人以35%的总体浏览量消耗了65%的核心数据中心流量资源。此外,自动爬虫甚至还去访问了维基媒体基金会开发环境关键系统(如代码审查平台、错误跟踪器)的URL。维基媒体基金会表示虽然该组织是非营利的,各项目的内容是免费提供的,但其基础设施却不是免费获得的,应建立一个负责任、可持续的基础设施使用规范,勿重演“公地悲剧”。广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。

相关新闻

加载更多...

排行榜 日排行 | 周排行