来源:TheVerge 作者:Jess Weatherbed

维基百科正试图通过发布专门针对训练人工智能模型而优化的数据集来劝阻人工智能开发人员抓取平台。维基媒体基金会周三宣布,它已与谷歌拥有的数据科学社区平台Kaggle(托管机器学习数据)合作,发布“英语和法语结构化维基百科内容”的测试版数据集。
维基媒体表示,Kaggle托管的数据集“在设计时考虑到了机器学习工作流程”,使人工智能开发人员更容易访问机器可读的文章数据,以进行建模、微调、基准测试、对齐和分析。数据集中的内容是公开许可的,截至4月15日,包括研究摘要、简短描述、图像链接、信息框数据和文章部分——减去参考资料或音频文件等非书面元素。
根据维基媒体的说法,Kaggle用户可用的“维基百科内容的结构良好的JSON表示”应该是“刮擦或解析原始文章文本”的更有吸引力的替代方案——这个问题目前给维基百科的服务器带来了压力,因为自动化的人工智能机器人无情地消耗了平台的带宽。维基媒体已经与谷歌和互联网档案馆签订了内容共享协议,但Kaggle合作伙伴关系应该能使小公司和独立数据科学家更容易获得这些数据。
Kaggle合作伙伴关系负责人Brenda Flynn说:“作为机器学习社区来获取工具和测试的地方,Kaggle非常高兴能成为维基媒体基金会数据的东道主。”“Kaggle很高兴能在保持这些数据的可访问性、可用性和有用性方面发挥作用。”
本文转载自TheVerge,本文观点不代表雅典娜AI助手YadiannaAI立场。