我如何获得维基百科页面的子集?

wiki mapreduce sample-data

1707 观看

7回复

26490 作者的声誉

我如何获得维基百科页面的一个子集(比如100MB)?我发现你可以将整个数据集作为XML获得,但它更像是1或2个演出; 我不需要那么多。

我想尝试实现map-reduce算法。

话虽如此,如果我能从任何地方找到100兆的文本样本数据,那也会很好。例如Stack Overflow数据库,如果它可用,可能是一个很好的大小。我愿意接受建议。

编辑:任何不是种子?我无法让那些人在工作。

作者: Chris 的来源 发布者: 2009 年 8 月 24 日

回应 7


4

33348 作者的声誉

决定

stackoverflow数据库可供下载

作者: Alex 发布者: 2009 年 8 月 24 日

1

2086 作者的声誉

如果要获取stackoverflow数据库的副本,可以从creative commons数据转储中执行此操作

出于好奇,您使用所有这些数据的是什么?

作者: Mike Cooper 发布者: 2009 年 8 月 24 日

1

4620 作者的声誉

一种选择是下载整个Wikipedia转储,然后只使用其中的一部分。您可以解压缩整个事物,然后使用简单的脚本将文件拆分为较小的文件(例如此处),或者如果您担心磁盘空间,您可以编写一个可以动态解压缩和拆分的脚本,以及然后你可以在你想要的任何阶段停止解压缩过程。维基百科转储阅读器可以通过灵感来解压缩和处理,如果你对python感到满意(看看mparser.py)。

如果你不想下载整个东西,你可以选择疤痕。该导出功能可能会对此很有帮助,并且wikipediabot还建议在这方面。

作者: daphshez 发布者: 2009 年 8 月 24 日

0

0 作者的声誉

您可以使用网络爬虫并刮掉100MB的数据?

作者: ben 发布者: 2009 年 8 月 24 日

3

21886 作者的声誉

克里斯,你可以写一个小程序来点击维基百科“随机页面”链接,直到你得到100MB的网页:http//en.wikipedia.org/wiki/Special :Random 。您可能希望丢弃可能获得的任何重复项,并且您可能还希望限制每分钟发出的请求数(尽管部分文章将由中间Web缓存提供,而不是维基百科服务器)。但它应该很容易。

作者: Jim Ferrans 发布者: 2009 年 8 月 24 日

0

17586 作者的声誉

有很多维基百科转储可用。你为什么要选择最大的(英文维基)?维基新闻档案要小得多。

作者: Danubian Sailor 发布者: 2011 年 2 月 24 日

0

163 作者的声誉

维基百科文章的一小部分包含'meta'维基文章。它与整个文章数据集采用相同的XML格式,但更小(截至2019年3月约为400MB),因此可用于软件验证(例如测试GenSim脚本)。

https://dumps.wikimedia.org/metawiki/latest/

您想要查找带有-articles.xml.bz2后缀的任何文件。

作者: Vineet Bansal 发布者: 2019 年 3 月 12 日
32x32