数据来源于维基百科。 数据来源:维基百科数据 ### 从维基百科提取数据 不会操作的,具体参考我这篇博客:使用WikiExtractor处理维基百科上的数据步骤-2019年3月
将数据从繁体字转为简体字
具体参考该博客:windows使用opencc中文简体和繁体互转,我试过里面的教程,没有任何问题。直接将博客往下拉,看3、OpenCC的使用即可。执行命令后,命令行会没有任何反应,这时只是在跑代码而已,我的文件157兆,大概只用了15秒。我把我的命令贴下来: 1
E:\python_workspace\nlp_learning\opencc-1.0.4\bin\opencc -i E:\python_workspace\nlp_learning\zhwiki-20190320-pages-articles\AA\wiki_00 -o E:\python_workspace\nlp_learning\zhwiki-20190320-pages-articles\opencc\wiki_00 -c E:\python_workspace\nlp_learning\opencc-1.0.4\share\opencc\t2s.json