Abstract (may include machine translation)
Nous proposons une nouvelle méthode pour l’extraction de termes multi-mots à partir de publications scientifiques. Notre stratégie est fondée sur la combinaison de deux approches : une première liste de termes « candidats » est d’abord extraite à partir de critères de fréquence et de spécificité. Cette liste est ensuite classée suivant la position du terme dans le Résumé : (en ayant recours à un étiquetage de la valeur « argumentative » des phrases, selon une analyse de type text zoning). Cette approche permet de classer les termes en différentes catégories, et notamment de distinguer le vocabulaire conceptuel des éléments d’ordre méthodologique. Nous avons appliqué cette méthode à l’extraction des termes utilisés en traitement automatique des langues à partir de l’analyse d’un corpus (ACL Anthology) s’étendant de 1980 à 2008. Nous montrons ainsi qu’il est possible de suivre les méthodes utilisées, comment elles sont introduites dans le domaine, par quel type d’auteur et pour quel usage, etc. Nous observons ainsi plusieurs faits marquants de l’évolution du domaine sur une période de plus de 30 ans.
We propose a new method to extract multiword expressions from scientific papers. Our approach is made of two major steps: a first list of candidates is extracted based on a score using frequency and specificity information. This list is then filtered based on the status of the term in the abstract of the scientific papers under investigation. These abstracts are annotated using a text zoning analyser. The terms are then classified in different categories according to the text zoning analysis: we make a difference between terms appearing in the method section of the abstract vs terms appearing in other zones. This method is applied to the ACL Anthology collection, containing the papers published by the ACL between 1980 and 2008. We show that the technique we use allows us to model interesting facts concerning the evolution of the domain and of the methods used in computational linguistics.
We propose a new method to extract multiword expressions from scientific papers. Our approach is made of two major steps: a first list of candidates is extracted based on a score using frequency and specificity information. This list is then filtered based on the status of the term in the abstract of the scientific papers under investigation. These abstracts are annotated using a text zoning analyser. The terms are then classified in different categories according to the text zoning analysis: we make a difference between terms appearing in the method section of the abstract vs terms appearing in other zones. This method is applied to the ACL Anthology collection, containing the papers published by the ACL between 1980 and 2008. We show that the technique we use allows us to model interesting facts concerning the evolution of the domain and of the methods used in computational linguistics.
Translated title of the contribution | Social Diversity and Semantics: Socio-Semantic Representation of a Scientific Corpus, the Case of the ACL Anthology Corpus |
---|---|
Original language | French |
Pages (from-to) | 145–179 |
Journal | Nouvelles perspectives en sciences sociales: Revue internationale de systémique complexe et d'études relationnelles |
Volume | 11 |
Issue number | 1 |
DOIs | |
State | Published - 2015 |