Laboratoire LaSTIG équipe COGIT – Sujet de thèse : Construction d’une mémoire des sites pollués

Par défaut

Discipline  : Informatique

Spécialité :  TAL (Traitement Automatique des Langues)/SIG (Sciences de l’Information Géographique)

Structure de Recherche :  LaSTIG/COGIT, en collaboration avec le laboratoire MoDyCo de l’université Paris Nanterre

Direction de thèse :  Delphine Battistelli (HDR, MoDyCo), Catherine Dominguès (demande de dérogation d’HDR, COGIT)

Lieu de travail principal :  IGN Saint-Mandé

Contact :  Catherine Dominguès (catherine.domingues@ign.fr)

Contexte

La prévention des pollutions et des risques est une des priorités du ministère chargé de l’environnement, et la pollution est une des préoccupations centrales des Français. La réglementation concernant la pollution peut être nationale, européenne ou internationale. Les sources de pollution sont localisables, tout comme les zones exposées à ces risques. Le mode de diffusion et sa durée, l’étendue de la zone contaminée, dépendent du type de pollution envisagée (déchets industriels, radioactifs, de marées noires, de dragages, de guerre ; pesticides ; amiante ; polychlorobiphényles (PCB) ; etc.).

De nombreux acteurs produisent et/ou diffusent des informations concernant ces pollutions sous la forme d’indicateurs qualitatifs ou quantitatifs, de diagrammes, de textes (textes réglementaires, rapports techniques, arrêtés, décisions, comptes rendus de débats, etc.), de bases de données géographiques et thématiques (par exemples les bases BASIAS et BASOL du BRGM), de cartes et d’atlas (par exemple Atlas de la France toxique ), de vidéos, etc. Ces acteurs sont divers : institutionnels (ministère chargé de l’environnement, inspection des installations classées pour l’environnement, etc.), instituts ou établissements publics (Institut national de l’environnement industriel et des risques, Institut de veille sanitaire, Bureau de recherches géologiques et minières, etc.), organisations non gouvernementales, journalistes, associations de professionnels de santé, de scientifiques, d’usagers, etc.

Les supports des informations varient selon le producteur : journaux officiels, presse officielle, presse d’information sous toutes ses formes, sites officiels des instituts et organisations, sites collaboratifs, blogs…

Enfin, ces informations, par leur nature, leur contenu, leur production, leur diffusion, évoluent dans le temps selon les événements concernant ces pollutions potentielles ou avérées.

Dans cette thèse, nous proposons de construire une mémoire des sites qui permette de rendre compte de la mémorisation ou de l’oubli collectifs des événements et activités d’un site, en rapport avec un risque de pollution. Il s’agit de collecter et organiser les informations produites à différents moments et par différents acteurs depuis l’installation d’une source polluante afin de construire des chronologies parallèles ; l’une relative aux événements (acte administratif, installation d’activité potentiellement polluante, changement d’activité, etc.), l’autre relative aux commentaires, prises de position, points de vue des acteurs en réaction aux événements.

Ce travail s’inscrit dans un champ multidisciplinaire qui couvre la linguistique de corpus et s’associe à la géomatique ; il utilisera/concevra des outils et méthodes de traitement automatique des langues (TAL) et des ressources et des outils de structuration et d’interrogation d’informations spatiales (bases de données géographiques, SIG, outils d’analyse spatiale).

La problématique de cette thèse serait double : d’une part, à partir des sources retenues, identifier les sites et les risques de pollution les concernant, d’autre part construire la mémoire de ces sites i.e. les événements relatifs aux sites et/ou aux risques de pollution. Les événements sont à comprendre comme l’installation d’une industrie, d’une activité polluantes ; les événements administratifs concernant ce lieu (permis de construire, de démolir ; arrêté d’autorisation, de mise en demeure, de suspension d’activité, de mesures d’urgence ; études de danger ; etc.) ; les articles de presse concernant ces sites ou leurs activités ou les réglementations en rapport avec ces activités.

Les éléments pertinents s’articulent autour des lieux, combinés à des informations thématiques sur la pollution, la chronologie temporelle, les acteurs impliqués, les événements saillants. Il s’agira de développer des outils d’analyse des textes axés sur la détection de ces informations et en tenant compte de la pluralité des points de vue correspondant à des sources d’information différentes (des controverses étant fréquentes sur des thématiques relevant du risque).

Verrous à lever :

Dans le domaine du traitement automatique des langues, ce travail relève de l’extraction automatique d’événements , et plus précisément dans ce contexte d’extraction de lieux, risques de pollution et actes associés (actes administratifs, d’information journalistique, associative, etc). La notion de lieu est à rapprocher de celle d’entité nommée spatiale (ENS) qui est bien définie dans la littérature et il existe des outils permettant d’extraire et localiser automatiquement ces ENS. Cependant, les lieux visés par les risques de pollution sont souvent désignés par des noms communs (l’usine , le lac, le parc, la chaussée ) que ces outils reconnaissent mal (Brando et al. 2016). D’autre part, il ne s’agit pas de reconnaître tous les lieux mentionnés dans les sources d’information mais ceux en relation avec la thématique traitée.

La définition de la granularité d’un lieu est une question cruciale dans ce travail : par exemple, il n’est pas pertinent d’identifier Paris comme un lieu quand l’objectif est de différencier la Seine et les canaux de Paris à cause de leur pollution par les PCB, des voieries parisiennes et leurs enrobés amiantés à cause de la pollution à l’amiante.

Des travaux ont porté sur la détection des dates et des durées, par ex. (Teissèdre 2012) et pour la détection d’événement (Battistelli et al. 2013 ; Nguynen et al. 2016). Un verrou sera de classer ces événements pour en construire un déroulement chronologique à partir de dates saillantes (Kessler et al. 2012).

Enfin, afin de construire une mémoire d’un site ou d’un risque de pollution, il sera nécessaire de pouvoir associer un texte administratif (par définition de portée générale) à un site ou un risque de pollution spécifique (Allan 2002).

Bibliographie sommaire

Association Robin des Bois (2016) Atlas de la France toxique, Arthaud Allan J. (2002) Introduction to topic detection and tracking. In Topic detection and tracking , James Allan (Ed.). Kluwer Academic Publishers, Norwell, MA, USA 1-16.

Battistelli D. (2011) Linguistique et recherche d’information : la problématique du temps. Hermès Science : Lavoisier, Paris.

Battistelli D., Charnois T., Minel J-L., Teissèdre C.(2013) – “Detecting salient events in large corpora by a combination of NLP and data mining techniques”, in Actes Cicling’13 (14th International Conference on Intelligent Text Processing and Computational Linguistics), 24-30 mars 2013, Samos, Grèce

Brando C., Dominguès C., Capeyron M. (2016) Evaluation of NER systems for the recognition of place mentions in French thematic corpora, In: Proceedings of the 10th Workshop on Geographic Information Retrieval  (GIR ’16). ACM, New York, NY, USA, article 7, 10 pages DOI: 10.1145/3003464.3003471

Kessler R, Tannier X., Hagège C., Moriceau V., Bittar A (2012) Extraction de dates saillantes pour la construction de chronologies thématiques, TAL. Volume 52 – n° 2/2012, pages 57 à 86

Nguyen K-H., Tannier X., Ferret O., Besançon R (2016). A Dataset for Open Event Extraction in English. in Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016). Portorož (Slovenia), May 2016

Nouvel D., Ehrmann M., Rosset S. (2015) Évaluation de la reconnaissance des entités nommées. In Les entités nommées pour le traitement automatique des langues , 111 19. Sciences cognitives. London, Royaume-Uni de Grande-Bretagne et d’Irlande du Nord: Iste éditions

Teissèdre C. (2012) Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d’information et à l’acquisition de connaissances. Thèse, Université de Nanterre

Profil attendu

Le(la) doctorant(e) devra avoir une formation (niveau bac.+5) en traitement automatique des langues, avec des compétences en programmation et bases de données afin de pouvoir utiliser différents supports d’information (bases de données, sites institutionnels, etc.).

Encadrement de la thèse

La thèse sera réalisée sous la co-direction de Delphine Battistelli du laboratoire MoDyCo (MOdèles, DYnamiques, COrpus) de l’université Paris Nanterre et Catherine Dominguès du COGIT/IGN (demande de dérogation d’HDR). Un comité de thèse sera aussi constitué.

Toute candidature doit inclure :

1. un CV détaillé précisant le cursus (un lien vers le site de la formation est aussi le bienvenu) et le(s) sujet(s) des stage(s) et mémoire(s) ;

2. une lettre de motivation adaptée au sujet proposé ;

3. le dernier rapport de stage ou mémoire rédigé (en version électronique) ;

4. un relevé de notes des deux dernières années d’étude, avec le rang du candidat si cette information est disponible.

Le dossier sera adressé sous forme électronique avant le mardi 30 juin à : catherine.domingues@ign.fr

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s