Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Casero > Software > Wikipedia

  • Casero
  • Noticias
  • Curriculum vitae
  • Publicaciones
  • Negociaciones
  • Enseñanza
  • Estudiantes
  • Software
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Otro trabajos
Contacto: pierre@senellart.com
  • Introducción
  • Extracción del gráfico
  • Extracción de Snaphsot

Modificación pasada
2011-03-07 21:18:14 UTC

Esta paginación ha sido traducida por los sistemas de traducción automática de SYSTRAN. La traducción automática no es todavía una tecnología perfecta, excusa por favor los errores potenciales contenidos en la paginación. Usted puede encontrar una versión original del texto en el lenguaje siguiente:

  • Inglés

Materia relacionada de Wikipedia

Introducción

Este Web page contiene una colección de escrituras de un cierto uso para extraer el contenido de Wikipedia y de otros wikis de Wikimedia.

Extracción del gráfico

El programa siguiente de C++ y las escrituras del Perl se pueden utilizar para extraer el gráfico de Wikipedia de un vaciado de XML de la base de datos (tales vaciados se pueden descargar de los servidores de Wikipedia aquí):

  • wikipedia_graph.cpp, programa de C++, que utiliza libxml2 del gnomo, libunicode y algunas características de la biblioteca de C++ TR1 (los compiladores recientes deben apoyarlo nativo).
  • ordonne.pl, escritura del Perl, que utiliza el programa externosort del Unix.
  • merge.pl, escritura del Perl, que utiliza el programa externosort del Unix.

Uso:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Esto produciráedge_list un fichero, conteniendo la lista de los bordes del gráfico, junto conindex un fichero, conteniendo las escrituras de la etiqueta del nodo. El formato de este fichero es el que está usado por la biblioteca escasa grande del gráfico.

Extracción de Snaphsot

split_xml.pl es una escritura del Perl que extrae fotos de un vaciado de Wikipedia que contiene revisiones múltiples.