您正在访问亚汇网香港分站,本站所提供的内容均遵守中华人民共和国香港特别行政区法律法规。

维基百科现已提供 JSON 格式内容快照数据集:机器可读,减少主站爬虫流量

文 / 小亚 2025-04-18 12:02:07 来源:亚汇网

该数据集可用于AI/ML建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。这也意味着AI爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。相关阅读:《广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。

相关新闻

加载更多...

排行榜 日排行 | 周排行