Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Hem > Programvara > Wikipedia

  • Hem
  • Nyheterna
  • Meritförteckning
  • Publikationer
  • Samtal
  • Undervisning
  • Deltagare
  • Programvara
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Annat arbeten
Kontakt: pierre@senellart.com
  • Inledning
  • Grafextraktion
  • Snaphsot extraktion

Sist ändring
2009-02-24 13:24:37 UTC

Denna sida har översatts av SYSTRAN bearbetar med maskin översättningssystem. Bearbeta med maskin översättningen är inte ännu en göra perfektteknologi, behar ursäkt som de potentiella felen innehöll i sidan. Du kan finna en original- version av texten i efter språket:

  • Engelskt

Släkta Wikipedia stoppar

Inledning

Denna webpage innehåller en samling av skrivar av något bruk för att dra ut som är nöjt från Wikipedia och andra Wikimedia wikis.

Grafextraktion

Efter C++-programet och Perlen skrivar kan vara det van vid extraktet som grafen av Wikipedia från en XML dumpar av den sådan databasen (dumpar kan nedladdas från de Wikipedia serverorna här):

  • wikipedia_graph.cpp C++-program, som använder Gnomes libxml2
  • ordonne.pl Perl skrivar, som använder det yttre Unixsortprogramet.
  • merge.pl Perl skrivar, som använder det yttre Unixsortprogramet.

Användning:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Detta ska jordbruksprodukteredge_list en spara som innehåller lista av grafen, kantar, tillsammans medindex en spara som innehåller knutpunktetiketterna. Formatera av denna sparar är den som används av det stora glesa grafarkivet.

Snaphsot extraktion

split_xml.pl är en Perl skrivar dra ut kort från en dumpa av Wikipedia som innehåller multipelrevideringar.