0%

使用WikiExtractor处理维基百科上的数据步骤

参考了博客,但是这篇博客提供命令我也执行不了。如果你也成功不了,可以试试我的步骤。

网上有很多博客介绍如何使用开源工具wiki extractor解压提取维基百科上的数据,但是我试了一下他们的命令发现没一个能用的,而且他们对于该命令基本都是一笔带过,没有做深入的解释,对于我这种小白在第一步就卡死了。另外他们大部分人都是用linux系统,还有些使用Mac系统,用Windows的只有少数,而且他们提供的命令还不好用。所以我在此提供Windows系统的使用办法。

  1. 数据来源:维基百科数据
  2. 首先进入wiki extractor的官网。发现里面有很多py文件,与其他人写的博客上的教程完全不一样。别人的教程只有一个WikiExtractor.py文件。
  3. 将该项目clone下来,放在你的项目中。如下图: wiki extractor文件存放路径 我下的是压缩包,解压开后就存放在wikiextractor-master文件夹。至于test.py只是用来测试gensim的word2vec算法好不好用的,无视就好。
  4. 进入wikiextractor-master文件夹执行python setup.py install,该步骤用于安装wiki extractor。其实wiki extractor的官网也写了这一步。但是不知道为什么其他人的博客没人介绍。
  5. 退出该文件夹到nlp_learning文件夹,执行python wikiextractor-master/WikiExtractor.py -b 1200M -o extracted zhwiki-20190320-pages-articles-multistream1.xml-p1p162886.bz2,这个命令应该很好理解,说一下里面的extracted,它是目标文件夹,就是提取出来的文本存放的那个文件夹。可以看到上面的图片里有这个文件夹。-b代表每多大字节输出一份文件,参数的具体使用方法可以到这里查询。
  6. 接下慢慢等就行了,我的文件157MB,大概洗脸刷牙后就提取完了。