Esta paginación ha sido traducida por los sistemas de traducción automática de SYSTRAN. La traducción automática no es todavía una tecnología perfecta, excusa por favor los errores potenciales contenidos en la paginación. Usted puede encontrar una versión original del texto en el lenguaje siguiente:
Materia relacionada de Wikipedia
Introducción
Este Web page contiene una colección de escrituras de un cierto uso para extraer el contenido de Wikipedia y de otros wikis de Wikimedia.
Extracción del gráfico
El programa siguiente de C++ y las escrituras del Perl se pueden utilizar para extraer el gráfico de Wikipedia de un vaciado de XML de la base de datos (tales vaciados se pueden descargar de los servidores de Wikipedia aquí):
- wikipedia_graph.cpp, programa de C++, que utiliza libxml2 del gnomo, libunicode y algunas características de la biblioteca de C++ TR1 (los compiladores recientes deben apoyarlo nativo).
- ordonne.pl, escritura del Perl, que utiliza el programa externosort del Unix.
- merge.pl, escritura del Perl, que utiliza el programa externosort del Unix.
Uso:
mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
Esto produciráedge_list un fichero, conteniendo la lista de los bordes del gráfico, junto conindex un fichero, conteniendo las escrituras de la etiqueta del nodo. El formato de este fichero es el que está usado por la biblioteca
escasa grande del gráfico.
Extracción de Snaphsot
split_xml.pl es una escritura del Perl que extrae fotos de un vaciado de Wikipedia que contiene revisiones múltiples.
