Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Domestico > Software > Wikipedia

  • Domestico
  • Notizie
  • Resume
  • Pubblicazioni
  • Colloqui
  • Insegnamento
  • Allievi
  • Software
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Altro impianti
Contatto: pierre@senellart.com
  • Introduzione
  • Estrazione del grafico
  • Estrazione di Snaphsot

Ultima modifica
2009-02-24 13:24:37 UTC

Questa pagina è stata tradotta dai sistemi di traduzione automatica SYSTRAN. La traduzione automatica non è ancora una tecnologia perfetta, prego scusa gli errori potenziali contenuti nella pagina. Potete trovare una versione originale del testo nel seguente linguaggio:

  • Inglese

Roba relativo di Wikipedia

Introduzione

Questo Web page contiene una collezione di scritti di un certo uso per l'estrazione del soddisfare da Wikipedia e da altri wikis di Wikimedia.

Estrazione del grafico

Il seguente programma di C++ e gli scritti del Perl possono essere usati per estrarre il grafico di Wikipedia da un deposito di XML della base di dati (tali depositi possono essere trasferiti dai server di Wikipedia qui):

  • wikipedia_graph.cpp, programma di C++, che usa libxml2 dello Gnome, libunicode ed alcune caratteristiche dalla libreria di C++ TR1 (i compilatori recenti dovrebbero sostenerli natale).
  • ordonne.pl, scritto del Perl, che usa il programma esternosort dell'Unix.
  • merge.pl, scritto del Perl, che usa il programma esternosort dell'Unix.

Uso:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Ciò produrràedge_list un archivio, contenente la lista dei bordi del grafico, conindex un archivio, contenente le etichette di vertice. Il formato di questo archivio è quello usato dalla grande libreria sparsa del grafico.

Estrazione di Snaphsot

split_xml.pl è uno scritto del Perl che estrae le fotografie istantanee da un deposito di Wikipedia che contiene le revisioni multiple.