Données du Web, INF344 (2014–2015)
Cette page contient le matériel du cours Données du Web (INF344), session 2014–2015. Voir aussi la page maintenue par Fabian Suchanek pour les cours dont il est responsable.
Cours
- Les quatre « v » de la datamasse du Web
- Web Crawling
- Distributed computing with MapReduce and beyond (Compléments sur Spark)
- Information Retrieval
- Web Ranking
- Computational Advertising
- Distributed storage (matériel co-réalisé avec Wolf-Tilo Balke, compléments disponibles ici)
- Probabilistic Databases
- Le traitement automatique du langage naturel (matériel réalisé par Chloé Clavel)
- Analyse des opinions et des sentiments dans les textes (matériel réalisé par Chloé Clavel)
- Information Extraction: Motivation & Knowledge Representation (matériel réalisé par Fabian Suchanek)
- Information Extraction: Named Entity Recognition (matériel réalisé par Fabian Suchanek)
- Information Extraction: Disambiguation (matériel réalisé par Fabian Suchanek)
- Information Extraction: Fact Extraction (matériel réalisé par Fabian Suchanek)
- Information Extraction: Fact Extraction by Reasoning (matériel réalisé par Fabian Suchanek)
- Semantic Web (matériel réalisé par Fabian Suchanek)
- Crawling Complex Web Content
- Practical example of XSLT wrapper (voir aussi chapitre de livre sur Wrappers with XSLT)
- Web Scale Information Extraction (matériel réalisé par Anna Lisa Gentile et Ziqi Zhang)
Travaux pratiques
Certains travaux pratiquent utilisent ce site de soumission et évaluation automatique.
- Web crawling (énoncé, Robot.java). Date limite de soumission: 10 mai à 23:59 (pénalités de -4 points jusque le 11 mai à 13:30).
- Exemple pour tester le site de soumission: calcul de factoriel (squelette). Date limite de soumission : 17 mai à 23:59 (pénalités de -4 points jusque le 18 mai à 13:30).
- Inverted Index with MapReduce (énoncé, squelette). Date limite de soumission : 25 mai à 23:59 (pénalités de -4 points jusque le 26 mai à 13:30).
- Analyse des opinions sous Twitter (énoncé)
- Named entity recognition (énoncé)
- Fact extraction (énoncé)
- HBase (énoncé, squelette). Date limite de soumission : 26 juin à 23:59 (pénalités de -4 points jusque le 27 juin à 8:30).
- Twitter and Web Scraping (énoncé, squelette). Date limite de soumission : 1er juillet à 23:59 (pénalités de -4 points jusque le 2 juillet à midi).
Références
- S. Abiteboul, I. Manolescu, M.-C. Rousset, P. Rigaux et P. Senellart, Web Data Management. Cambridge University Press, New York, USA, janvier 2012. Disponible en téléchargement et à l'achat
- Introduction to information retrieval
- Java API documentation