Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Haupt > Software > Wikipedia

  • Haupt
  • Nachrichten
  • Zusammenfassung
  • Publikationen
  • Gespräche
  • Unterricht
  • Kursteilnehmer
  • Software
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Anderes Arbeiten
Kontakt: pierre@senellart.com
  • Einleitung
  • Diagrammextraktion
  • Snaphsot Extraktion

Letzte änderung
2009-02-24 13:24:37 UTC

Diese Seite ist durch SYSTRAN maschinelle übersetzungsysteme übersetzt worden. Maschinelle übersetzung ist nicht noch eine vollkommene Technologie, entschuldigen bitte die möglichen Fehler, die in der Seite enthalten werden. Sie können eine ursprüngliche Version des Textes in der folgenden Sprache finden:

  • Englisch

Wikipedia in Verbindung stehendes Material

Einleitung

Diese Webseite enthält eine Ansammlung Indexe etwas Gebrauches für das Extrahieren des Inhalts von Wikipedia und von anderen Wikimedia wikis.

Diagrammextraktion

Das folgende C++ Programm und die Perl Indexe können benutzt werden, um das Diagramm von Wikipedia von einem XML Speicherauszug der Datenbank zu extrahieren (solche Speicherauszüge können von den Wikipedia Servers hier downloadet werden):

  • wikipedia_graph.cpp, C++ Programm, das libxml2 Gnomes verwendet, libunicode und einige Merkmale von der C++ TR1 Bibliothek (neue Compiler sollten sie gebürtig unterstützen).
  • ordonne.pl, Perl Index, der das externe Unixprogrammsort verwendet.
  • merge.pl, Perl Index, der das externe Unixprogrammsort verwendet.

Verbrauch:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Dieses produziert eineedge_list Datei und enthält die Liste der Diagrammränder, zusammen mit einerindex Datei und enthält die Knotenpunktkennsätze. Das Format dieser Datei ist das, das durch die große spärliche Diagrammbibliothek verwendet wird.

Snaphsot Extraktion

split_xml.pl ist ein Perl Index, der Snapshots von einem Speicherauszug von Wikipedia mehrfache änderungen enthalten extrahiert.