Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

ホーム > ソフトウェア > Wikipedia

  • ホーム
  • ニュース
  • 概要
  • 出版物
  • 話
  • 教授
  • 学生
  • ソフトウェア
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • 他作業
接触: pierre@senellart.com
  • 導入
  • グラフ抽出
  • Snaphsotの抽出

最後の修正
2011-03-07 21:18:14 UTC

このページはSYSTRANの機械翻訳システムによって変換された。 機械翻訳はまだ完全な技術、許すページに含まれている潜在的なエラーをでない。 次の言語のテキストのオリジナル版を見つけることができる:

  • 英語

Wikipediaは原料を関連付けた

導入

このWebページはWikipediaおよびWikimediaの他のwikisから内容を得るための使用の原稿のコレクションを含んでいる。

グラフ抽出

次のC++プログラムおよびパールの原稿はデータベースのXMLのダンプからWikipediaのグラフを得るのに使用することができる(そのようなダンプはWikipediaサーバからここにダウンロードすることができる):

  • wikipedia_graph.cppのノームのlibxml2を使用するC++プログラム、libunicodeおよびC++ TR1ライブラリからのある機能(最近のコンパイラーはそれらをネイティブでサポートするべきである)。
  • ordonne.plのUnix外部プログラムを使用するパールの原稿sort。
  • merge.plのUnix外部プログラムを使用するパールの原稿sort。

使用法:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

これは、edge_listノードラベルを含んでいるファイルと共にグラフ端のindexリストを含んでいるファイルを作り出す。 このファイルのフォーマットは大きく希薄なグラフライブラリによって使用されるものである。

Snaphsotの抽出

split_xml.plは多重修正を含んでいるWikipediaのダンプからスナップショットを得るパールの原稿である。