Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Home > Software > Wikipedia

  • Home
  • Notícia
  • Resumo
  • Publicações
  • Conversas
  • Ensino
  • Estudantes
  • Software
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Outro trabalhos
Contato: pierre@senellart.com
  • Introdução
  • Extração do gráfico
  • Extração de Snaphsot

Última modificação
2011-03-07 21:18:14 UTC

Esta página foi traduzida por sistemas de tradução de máquina de SYSTRAN. A tradução de máquina não é ainda uma tecnologia perfeita, desculpa por favor os erros potenciais contidos na página. Você pode encontrar uma versão original do texto na seguinte língua:

  • Inglês

Material relacionado de Wikipedia

Introdução

Este Web page contem uma coleção dos certificados de algum uso para extrair o índice de Wikipedia e de outros wikis de Wikimedia.

Extração do gráfico

O seguinte programa de C++ e os certificados do Perl podem ser usados extrair o gráfico de Wikipedia de um dump de XML da base de dados (tais dumps podem downloaded dos server de Wikipedia aqui):

  • wikipedia_graph.cpp, programa de C++, que usam libxml2 de Gnome, libunicode e algumas características da biblioteca de C++ TR1 (os compiladores recentes devem o suportar nativa).
  • ordonne.pl, certificado do Perl, que usa o programa externosort do Unix.
  • merge.pl, certificado do Perl, que usa o programa externosort do Unix.

Uso:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Isto produziráedge_list uma lima, contendo a lista das bordas do gráfico, junto comindex uma lima, contendo as etiquetas do nó. O formato desta lima é esse usado pela biblioteca escassa grande do gráfico.

Extração de Snaphsot

split_xml.pl é um certificado do Perl que extrai instantâneos de um dump de Wikipedia que contem revisões múltiplas.