Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

家 > 软件 > Wikipedia

  • 家
  • 新闻
  • 简历
  • 发行
  • 谈话
  • 教学
  • 学员
  • 软件
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • 其他工作
联络: pierre@senellart.com
  • 简介
  • 图形提取
  • Snaphsot提取

前修改
2009-02-24 13:24:37 UTC

此页由SYSTRAN机器翻译系统转换了。 机器翻译不是理想的技术,请辨解在页包含的潜在的错误。 您在下列语言能找到文本的一部原著:

  • 英语

Wikipedia相关东西

简介

此网页包含若干使用脚本的一收集为提取目录从Wikipedia和其他Wikimedia wikis。

图形提取

下列C++程序和Perl脚本可以被用于从数据库的XML转储提取Wikipedia图形(这样转储可以从Wikipedia服务器这里被下载) :

  • wikipedia_graph.cpp, C++程序,使用地精的libxml2, libunicode和有些功能从C++ TR1图书馆(最近编译器应该天然地支持他们)。
  • ordonne.pl, Perl脚本,使用外部Unixsort程序。
  • merge.pl, Perl脚本,使用外部Unixsort程序。

用量:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

这将生产一个edge_list文件,包含图形边缘列表,与index文件一起,包含节点标签。 此文件格式是大稀疏的图形图书馆使用的那个。

Snaphsot提取

split_xml.pl是提取快照的Perl脚本从包含多个版本的Wikipedia转储。