Pierre Senellart

Ara (SYSTRAN) Deu (SYSTRAN) Ell (SYSTRAN) Eng Fra (SYSTRAN) Ita (SYSTRAN) Jpn (SYSTRAN) Kor (SYSTRAN) Nld (SYSTRAN) Por (SYSTRAN) Rus (SYSTRAN) Spa (SYSTRAN) Swe (SYSTRAN) Zho (SYSTRAN)

홈 > 소프트웨어 > Wikipedia

  • 홈
  • 뉴스
  • 이력서
  • 간행물
  • 대화
  • 가르침
  • 학생
  • 소프트웨어
    • Fuzzy XML
    • Larse Sparse Graph
    • Wikipedia
  • 그 외 일
접촉: pierre@senellart.com
  • 소개
  • 도표 적출
  • Snaphsot 적출

마지막 수정
2011-03-07 21:18:14 UTC

이 페이지는 SYSTRAN 기계번역 시스템에 의해 변환되었다. 기계번역은 아직 완벽한 기술이, 용서한다 페이지에서 포함된 잠재적인 과실을 아니다. 뒤에 오는 언어에 있는 원본의 원본을 찾아낼 수 있다:

  • 영어

Wikipedia는 재료를 관련시켰다

소개

이 웹 페이지는 Wikipedia와 Wikimedia 다른 wikis에서 내용 추출을 위한 약간 사용의 원본의 집합을 포함한다.

도표 적출

뒤에 오는 C++ 프로그램 및 Perl 원본은 데이타베이스의 XML 덤프에서 Wikipedia의 도표를 추출하기 위하여 이용될 수 있다 (그 같은 덤프는 Wikipedia 서버에서 여기에서 다운로드될 수 있다):

  • wikipedia_graph.cpp 의 격언의 libxml2를 사용하는 C++ 프로그램, libunicode와 C++ TR1 도서관에서 몇몇 특징 (최근 컴파일러는 그(것)들을 고유하게 지원해야 한다).
  • ordonne.pl 의 유닉스 외부 프로그램을 사용하는 Perl 원본sort.
  • merge.pl 의 유닉스 외부 프로그램을 사용하는 Perl 원본sort.

사용법:

mkdir temp
cd temp
$PROG/wikipedia_graph $SRC/wiki.xml.gz
$PROG/ordonne.pl
$PROG/merge.pl > ../edge_list
cd ..
    

, 마디 레이블을edge_list 포함하는 파일과 더불어 도표 가장자리의 명부를 포함하는index 파일이 이것에 의하여 생성할 것이다. 이 파일의 체재는 큰 부족한 도표 도서관에 의해 사용된 것이다.

Snaphsot 적출

split_xml.pl는 다중 개정을 포함하는 Wikipedia의 덤프에서 스냅을 추출하는 Perl 원본이다.