Données du Web, INF344 (2015 - 2016)
Cette page contient le matériel du cours Données du Web (INF344), session 2015–2016. Voir aussi la page maintenue par Fabian Suchanek pour les cours dont il est responsable.
Cours
- Les quatre « v » de la datamasse du Web
- Introduction aux technologies du Web : Introduction, Internet et HTTP, HTML (matériel d'Antoine Amarilli)
- Web Crawling
- Information Retrieval
- Le traitement du langage naturel (matériel de Chloé Clavel)
- Information Extraction: Motivation & Knowledge Representation (matériel de Fabian Suchanek)
- Named Entity Recognition (matériel de Fabian Suchanek)
- Disambiguation (matériel de Fabian Suchanek)
- Fact Extraction (matériel de Fabian Suchanek)
- Reasoning (matériel de Fabian Suchanek)
- Semantic Web (matériel de Fabian Suchanek)
- Web Ranking
- Online Advertising (matériel de Vahab Mirrokni); voir aussi SEC 10-K Alphabet et Facebook
- Distributed storage (matériel co-réalisé avec Wolf-Tilo Balke, compléments disponibles ici)
- Probabilistic Databases
- Structured Web Content Extraction
- XPath
- Démos Wrappers:
- Analyse des opinions et des sentiments dans les textes (matériel de Chloé Clavel)
Travaux pratiques
Certains travaux pratiquent utilisent ce site de soumission et évaluation automatique.
- Web crawling (énoncé, Robot.java). Date limite de soumission: 17 mai à 23:59 (pénalités de -4 points jusque le 18 mai à 13:30).
- Inverted Index with MapReduce (énoncé, squelette). Date limite de soumission : 25 mai à 23:59 (pénalités de -4 points jusque le 26 mai à 13:30).
- Named Entity Recognition
- Instance Extraction
- HBase (énoncé, squelette). Date limite de soumission : 19 juin à 23:59 (pénalités de -4 points jusque le 20 juin à 8:30).
- MayBMS (énoncé, squelette). Date limite de soumission : 3 juillet à 23:59 (pénalités de -4 points jusque le 4 juillet à 8:30).
- Twitter and Web Scraping (énoncé, squelette). Date limite de soumission : 6 juillet à 23:59 (pénalités de -4 points jusque le 7 juillet à 8:30).
Références
- S. Abiteboul, I. Manolescu, M.-C. Rousset, P. Rigaux et P. Senellart, Web Data Management. Cambridge University Press, New York, USA, janvier 2012. Disponible en téléchargement et à l'achat
- Introduction to information retrieval
- Java API documentation