Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

Домашн > Средство программирования > Wikipedia

  • Домашн
  • Новости
  • Резюме
  • Издания
  • Беседы
  • Преподавательство
  • Студенты
  • Средство программирования
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • Другое работы
Контакт: pierre@senellart.com
  • Введение
  • Извлечение диаграммы
  • Извлечение Snaphsot

Последнее изменение
2011-03-07 21:18:14 UTC

Эта страница была переведена системами машинного перевода SYSTRAN. Машинным переводом не будет пока совершенная технология, пожалуйста извиняет потенциальные ошибки, котор содержат в странице. Вы можете найти первоначально вариант текста в following языке:

  • Английско

Вещество Wikipedia родственное

Введение

Это web page содержит собрание сценариев некоторой пользы для извлекать содержание от Wikipedia и других wikis Wikimedia.

Извлечение диаграммы

Following программу C++ и сценарии Perl можно использовать для того чтобы извлечь диаграмму Wikipedia от сброса XML базы данных (такие сбросы можно downloaded от серверов Wikipedia здесь):

  • wikipedia_graph.cpp, программа C++, которая используют libxml2 Gnome, libunicode и некоторые характеристики от архива C++ TR1 (недавние составители должны поддержать их родн).
  • ordonne.pl, сценарий Perl, который использует внешнюю программуsort Unix.
  • merge.pl, сценарий Perl, который использует внешнюю программуsort Unix.

Использование:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

Это произведетedge_list архив, содержа перечень края диаграммы, вместе сindex архивом, содержа ярлыки узла. Форма этого архива одним используемым большим Sparse архивом диаграммы.

Извлечение Snaphsot

split_xml.pl будет сценарием Perl извлекая snapshots от сброса Wikipedia содержа множественные изменения.