Résumé du projet
Ce projet vise à doter les observateurs de la langue française (terminologues, lexicographes, linguistes, journalistes, etc.) d’un moteur de recherche — Néonaute — capable de donner une représentation fidèle du développement chronologique et de l’implantation sociale des néologismes apparus depuis une dizaine d’années sur la base d’un corpus textuel n’ayant jamais fait l’objet de ce type d’analyse linguistique : les collections de dépôt légal du web conservées à la BnF, qui représentaient au 1er janvier 2017 près de 793 To de données.
Concrètement, il s’agit de permettre, par exemple, à un lexicologue de retracer l’accroissement de l’usage de “gouverneure” (depuis 2008), ou à un terminologue de suivre la diffusion d’un nouvel équivalent officiel comme “biosourcé” (2016).
Pratiquement, Néonaute bénéficiera de l’expérience et des technologies de veilleurs de néologie existants (Logoscope et Néoveille) et, en retour, ces derniers disposeront du moyen qui leur manque actuellement pour mettre à disposition des utilisateurs des outils complètement aboutis pour l’observation de l’évolution du vocabulaire français. En effet, si à l’heure actuelle le Logoscope (LILPA, Université de Strasbourg) et Néoveille (LIPN-RCLN, Paris-13) opèrent bien une détection automatique efficace des néologismes formels et sémantiques, ces outils de veille ne reflètent que très partiellement l’usage réel des mots nouveaux, comme l’indiquent les sondages du tableau suivant (mesures de janvier 2017).
Néologismes | Occurrences Logoscope | Occurrences Néoveille | Occurrences Google |
grexit | 5 | 51 | 50000 |
fact-checking | 19 | 150 | 40000 |
crowdlending | 23 | 18 | 30000 |
Pour pallier ce déficit concernant la représentation fidèle de l’usage, la veille néologique a donc besoin de données massives, ainsi que d’un outil de fouille performant pour exploiter ces données. Mais recourir ici à Google ou à d’autres moteurs de recherche généralistes s’avère très problématique. En effet, alors qu’internet est devenu le plus riche creuset d’informations qui soit, il reste que les moteurs de recherche généralistes ne contrôlent pas ce flux d’information, qui notamment est bruité, contient des doublons, et ne gère ni la diachronie, ni la diastratie, ni la diatopie. De plus, les moteurs de recherche généralistes ne proposent qu’un nombre limité d’options de recherche, qui rendent malaisée la confection d’un corpus pour l’étude linguistique.
Le projet Néonaute apporte justement une alternative aux moteurs de recherche généralistes, concernant la néologie. En effet, Néonaute prendra pour corpus la collecte “Actualités”, soit une centaine de sites d’actualité capturés quotidiennement par la BnF depuis fin 2010, représentant près de 10 To de données, et formant un corpus stable et documenté d’une grande richesse, se prêtant à une approche diachronique. Le recours à ces collections garantit de surcroît la reproductibilité des recherches par d’autres équipes de chercheurs, grâce, notamment, à la présence d’un permalien qui permet de citer, avec précision et de manière pérenne, les sources mobilisées par l’étude.
Néonaute se présentera sous la forme d’une plateforme :
- adossée aux fonctionnalités de recherche plein texte et de constitution de corpus proposées par la plateforme expérimentale “Archives de l’internet Labs”, conçue et développée par la BnF lors de précédents projets de recherche, actuellement accessible dans ses emprises à des chercheurs accrédités, conformément au cadre juridique applicable aux collections de dépôt légal du web, et signataires d’une convention1; cette plateforme est basée sur le moteur de recherche open source Apache Solr, utilisé aujourd'hui par les grandes entreprises et les centres de recherche, et dotée de fonctionnalités avancées (indexation riche, requêtes avancées et par facettes, notamment);
- enrichie des technologies d’analyse linguistique automatique, parvenues à maturité, développées dans le cadre du Traitement Automatique des Langues, et notamment certains acquis du Logoscope et Néoveille (analyse morphosyntaxique, reconnaissance d’entités nommées, analyse thématique, par exemple);
- enrichie de fonctionnalités de recherche additionnelles, et notamment la possibilité de faire des recherches à partir de listes de mots et l’affichage des résultats sous forme de visualisations interactives, à l’instar des fonctionnalités proposées par la plateforme Néoveille.
Objectifs du projet et résultats visibles
Les objectifs de ce projet sont de
- valoriser les données textuelles du web national archivé depuis 20 ans par la Bibliothèque nationale de France, en proposant un prototype de moteur de recherche doté de fonctionnalités avancées (recherche plein texte avec moteur de requêtes complexes ; accès par facettes liées aux méta-données liées à chaque page web ; visualisation interactive des résultats : visualisation temporelle des occurrences, visualisation interactive par croisement de critères, sauvegarde des résultats) qui permettra un accès riche à la collection “Actualités”;
- proposer aux chercheurs en linguistique et sociolinguistique de pouvoir suivre le cycle de vie des lexies, et en particulier les néologismes repérés automatiquement par les plateformes Logoscope et Néoveille, en croisant différentes méta-informations : fréquence, évolution de fréquence, et méta-informations diastratiques et diatopiques, sous forme de visualisation interactive;
- proposer un outil de suivi des implantations des termes sur ces données textuelles, constituant le corpus internet dynamique le plus représentatif du web français. Cet outil permettra notamment d'obtenir pour un terme recommandé, la liste des occurrences dans le corpus, la visualisation de l'évolution temporelle comparative d'implantation de ce terme vis-à-vis d'autres termes en usage et concurrents, la visualisation interactive des implantations selon différentes facettes, la sauvegarde de ces résultats ;
- proposer une interface web permettant de suivre les usages des termes féminisés (noms et syntagmes nominaux) ;
- permettre aux chercheurs en linguistique, terminologie, traitement automatique des langues et plus généralement à tous les chercheurs en Sciences Humaines et Sociales de pouvoir accéder, interroger et fouiller les données du web archivées par la BnF au moyen d'un moteur de recherche dotée de fonctionnalités avancées. Il s'agit ici de préparer un prototype qui pourrait être ensuite étendu à l'ensemble des données des archives web de la BnF.
Le projet Néonaute s’inscrit dans le champ de recherche de l’accès aux archives de l'internet dont la vitalité n'est plus à démontrer, comme en témoignent les projets RESAW (Université d'Aarhus), BUDDHA (Université de Londres/British Library), Web90 et ASAP (CNRS/ISCC) ou encore Les passés dans le présent (Télécom ParisTech).
- La principale innovation du projet prend la forme d’un moteur de recherche intégrant l’analyse linguistique automatique, permettant d’enrichir considérablement l’indexation des données;
- une seconde innovation concerne la mise en place d’une visualisation interactive des résultats, particulièrement utile pour l’exploration et l’analyse des données textuelles, croisant la fréquence, l’évolution diachronique de cette fréquence et différentes méta-informations. Une telle visualisation partira des réalisations déjà effectuées dans Néoveille;
- Enfin, Néonaute entend offrir aux linguistes un outil novateur d'analyse des données textuelles contemporaines, avec une fouille basée sur le plus gros corpus du web français actuellement disponible, qui pourra ensuite être étendu aux autres collections nées numériques ou numérisées conservées à la BnF.