Wikipedia相关东西
简介
此网页包含若干使用脚本的一收集为提取目录从Wikipedia和其他Wikimedia wikis。
图形提取
下列C++程序和Perl脚本可以被用于从数据库的XML转储提取Wikipedia图形(这样转储可以从Wikipedia服务器这里被下载) :
- wikipedia_graph.cpp, C++程序,使用地精的libxml2, libunicode和有些功能从C++ TR1图书馆(最近编译器应该天然地支持他们)。
- ordonne.pl, Perl脚本,使用外部Unixsort程序。
- merge.pl, Perl脚本,使用外部Unixsort程序。
用量:
mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
这将生产一个edge_list文件,包含图形边缘列表,与index文件一起,包含节点标签。 此文件格式是大稀疏的图形图书馆使用的那个。
Snaphsot提取
split_xml.pl是提取快照的Perl脚本从包含多个版本的Wikipedia转储。
