Cette page a été traduite par les systèmes de traduction automatique de SYSTRAN. La traduction automatique n'est pas une technologie parfaite, veuillez excuser les erreurs potentielles contenues dans cette page. Vous pouvez trouver une version originale du texte dans la langue suivante :
Choses relatives de Wikipedia
Introduction
Cette page Web contient une collection de scripts d'une certaine utilisation pour extraire le contenu à partir de Wikipedia et d'autres wikis de Wikimedia.
Extraction de graphe
Le programme et les scripts Perl suivants de C++ peuvent être employés pour extraire le graphe de Wikipedia à partir d'une image de XML de la base de données (de telles images peuvent être téléchargées des serveurs de Wikipedia ici) :
- wikipedia_graph.cpp, programme de C++, qui utilise le libxml2 de Gnome, libunicode et quelques dispositifs de la bibliothèque du C++ TR1 (les compilateurs récents devraient les supporter nativement).
- ordonne.pl, script Perl, qui utilise le programme externesort d'Unix.
- merge.pl, script Perl, qui utilise le programme externesort d'Unix.
Utilisation :
mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
Ceci produiraedge_list un fichier, contenant la liste des arêtes de graphe, avecindex un fichier, contenant les étiquettes de noeud. Le format de ce fichier est celui employé par la bibliothèque de Grands Graphes Creux.
Extraction de Snaphsot
split_xml.pl est un script Perl extrayant des instantanés à partir d'une image de Wikipedia contenant des révisions multiples.
