Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Hoofdpagina > Software > Wikipedia

  • Hoofdpagina
  • Nieuws
  • Curriculum Vitæ
  • Publicaties
  • Besprekingen
  • Cursussen
  • Studenten
  • Software
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Andere werken
Contact: pierre@senellart.com
  • Inleiding
  • De extractie van de grafiek
  • De extractie van Snaphsot

Laatste Wijziging
2011-03-07 21:18:14 UTC

Deze pagina is door de automatische vertaling systeem van SYSTRAN vertaald. De automatische vertaling is nog geen perfecte technologie, neemt u me niet kwalijk voorde potentiële fouten in de pagina. U kunt een originele versie van deze tekst in de volgende taalen vinden:

  • Engels

Wikipedia bracht materiaal met elkaar in verband

Inleiding

Dit webpage bevat een inzameling van manuscripten van enig nut voor het halen van inhoud uit Wikipedia en andere wikis Wikimedia.

De extractie van de grafiek

Het volgende C++ programma en de manuscripten Perl kunnen worden gebruikt om de grafiek van Wikipedia uit een stortplaats XML van het gegevensbestand (dergelijke stortplaatsen kunnen van de servers worden gedownload Wikipedia hier) te halen:

  • wikipedia_graph.cpp, C++ programma, dat Gnome libxml2 gebruiken, libunicode en sommige eigenschappen van de C++ TR1 bibliotheek (de recente compilers zouden hen natively moeten steunen).
  • ordonne.pl, manuscript Perl, dat het externe programma van het Unixsort gebruikt.
  • merge.pl, manuscript Perl, dat het externe programma van het Unixsort gebruikt.

Gebruik:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Dit zal een dossieredge_list uitvaardigen, dat de lijst van de grafiekranden bevat, samen met eenindex dossier, dat de knoopetiketten bevat. Het formaat van dit dossier is gebruikt door de Grote Dunne bibliotheek van de Grafiek.

De extractie van Snaphsot

split_xml.pl is een manuscript Perl die momentopnamen haalt uit een stortplaats die van Wikipedia veelvoudige revisies bevat.