Fra

Pierre Senellart

  • Accueil
  • Curriculum Vitæ
  • Publications
  • Exposés
  • Enseignement
  • Étudiants
  • Autres

Contact : pierre@senellart.com
  • Cours
  • Travaux pratiques
  • Références

Dernière modification
2016-06-24 18:50:42 UTC

Données du Web, INF344 (2015 - 2016)

Cette page contient le matériel du cours Données du Web (INF344), session 2015–2016. Voir aussi la page maintenue par Fabian Suchanek pour les cours dont il est responsable.

Cours

  1. Les quatre « v » de la datamasse du Web
  2. Introduction aux technologies du Web : Introduction, Internet et HTTP, HTML (matériel d'Antoine Amarilli)
  3. Web Crawling
  4. Information Retrieval
  5. Le traitement du langage naturel (matériel de Chloé Clavel)
  6. Information Extraction: Motivation & Knowledge Representation (matériel de Fabian Suchanek)
  7. Named Entity Recognition (matériel de Fabian Suchanek)
  8. Disambiguation (matériel de Fabian Suchanek)
  9. Fact Extraction (matériel de Fabian Suchanek)
  10. Reasoning (matériel de Fabian Suchanek)
  11. Semantic Web (matériel de Fabian Suchanek)
  12. Web Ranking
  13. Online Advertising (matériel de Vahab Mirrokni); voir aussi SEC 10-K Alphabet et Facebook
  14. Distributed storage (matériel co-réalisé avec Wolf-Tilo Balke, compléments disponibles ici)
  15. Probabilistic Databases
  16. Structured Web Content Extraction
  17. XPath
  18. Démos Wrappers:
    • Crawler Scrapy simple
    • Crawler Scrapy + Selenium
    • Wrapper XSLT (voir aussi chapitre de livre sur Wrappers with XSLT)
  19. Analyse des opinions et des sentiments dans les textes (matériel de Chloé Clavel)

Travaux pratiques

Certains travaux pratiquent utilisent ce site de soumission et évaluation automatique.

  1. Web crawling (énoncé, Robot.java). Date limite de soumission: 17 mai à 23:59 (pénalités de -4 points jusque le 18 mai à 13:30).
  2. Inverted Index with MapReduce (énoncé, squelette). Date limite de soumission : 25 mai à 23:59 (pénalités de -4 points jusque le 26 mai à 13:30).
  3. Named Entity Recognition
  4. Instance Extraction
  5. HBase (énoncé, squelette). Date limite de soumission : 19 juin à 23:59 (pénalités de -4 points jusque le 20 juin à 8:30).
  6. MayBMS (énoncé, squelette). Date limite de soumission : 3 juillet à 23:59 (pénalités de -4 points jusque le 4 juillet à 8:30).
  7. Twitter and Web Scraping (énoncé, squelette). Date limite de soumission : 6 juillet à 23:59 (pénalités de -4 points jusque le 7 juillet à 8:30).

Références

  • S. Abiteboul, I. Manolescu, M.-C. Rousset, P. Rigaux et P. Senellart, Web Data Management. Cambridge University Press, New York, USA, janvier 2012. Disponible en téléchargement et à l'achat
  • Introduction to information retrieval
  • Java API documentation