You are here

Étiquetage de documents Web à l’aide de modèles statistiques thématiques basées sur des extraits de textes tirés de Wikipédia

Project Type: 
initié par le stagiare

Ce projet développera des algorithmes qui généreront automatiquement des étiquettes descriptives pour de vastes collections de documents Web.

Project Leader(s): 

Boursier postdoctoral : Dr Mathieu Sinn, David R. Cheriton School of Computer Science, Université de Waterloo

Mentor du corps enseignant : Dr Pascal Poupart, David R. Cheriton School of Computer Science, Université de Waterloo

Nous développerons des algorithmes afin de générer automatiquement des étiquettes descriptives pour de vastes collections de documents Web. Ces étiquettes peuvent être utilisées par des entreprises qui veulent savoir sur quels sites Web ils doivent faire placer leurs annonces, ou par des éditeurs électroniques pour catégoriser les offres des médias. Actuellement, il n’existe aucune approche semblable pouvant apposer automatiquement et solidement des étiquettes sur de bloc d’annonces avec un degré d’efficacité comparable à celui du même travail effectué par une humain. Comme les principales difficultés consistent à saisir les concepts sous-jacents d’un groupe de documents et à les exprimer dans un texte lisible court, nous développerons des modèles statistiques thématiques qui tirent profit du contenu de l’encyclopédie en ligne Wikipédia afin de produire des étiquettes de qualité. Google a un besoin immédiat pour une telle approche afin d’améliorer son utilisation interne de blocs de documents et pour qu’elle puisse développer de nouveaux services commerciaux qui dépendent de la disponibilité d’une technique d’étiquetage de haute qualité, entièrement automatisée.

Non-academic participants: