AAC/CFP Corpus 26 - 2025 - https://journals.openedition.org/corpus/

<https://journals.openedition.org/corpus/>
Background noise or added value? Managing noise during computer processing of 
linguistic corpora
Elisa Gugliotta, Luca Pallanti, Olivier Kraif, Iris Fabry et Martina Barletta 
(eds.)

-------FRENCH VERSION BELOW-----
The increasing influence of NLP-related methodologies on corpus linguistics has 
compelled researchers to reassess their practices for managing noise and its 
impact on research results (Fuchs & Habert, 2004; Léon, 2018; Zalmout et al., 
2018). Whether working with long-diachronic corpora (e.g., medieval French), 
dialectal corpora with limited resources (e.g., oral or written texts in 
dialectal Arabic, cf. Arabizi), or corpora of texts deviating from the norm 
(e.g., learner corpora), conducting noise analysis becomes an essential step in 
drawing linguistic conclusions from the available data (Molinelli & Putzu, 
2015; Scaglione, 2018; Litosseliti, 2018). This special issue of Corpus builds 
upon a workshop held in April 2023 (https://je-bruit-corpus.sciencesconf.org/) 
and offers an opportunity to examine noise management methods in the fields of 
NLP and corpus linguistics, as well as their impact on the quality of 
linguistic data (Kraif & Ponton, 2007; Goutte et al., 2012; Zeroual, 2018).
The fundamental inquiries in any linguistic study revolve around defining the 
research object, understanding the nature of the data, and determining ways to 
preserve its inherent characteristics throughout the various processing steps 
(such as lemmatisation, normalisation, labelling, etc.) (Sarrica et al., 2016). 
Hence, selecting appropriate methods for identifying and controlling noise 
becomes crucial throughout the entire process, from data collection to the 
archiving phase, and from data preparation to annotation (Egbert & Baker, 
2019). The definition of noise itself is diverse and far from self-evident. In 
the field of NLP alone, this term encompasses a wide range of highly 
heterogeneous phenomena, including web peritexts - such as hyperlinks, menus 
and computer codes - as well as code switching and instances of spelling or 
grammatical errors that punctuate productions (Al Sharou et al., 2021).
This special issue aims to delve into the definition of noise, from a 
linguistic perspective, and the practices employed by researchers to mitigate 
the biases that can arise from it. These practices are implemented during 
collection, recording, and annotation of data. The question of noise inevitably 
emerges at each stage of the empirical process involved in data construction 
and analysis:
1. Noise during data collection and recording
If one accepts the postulate that "linguistic data is a result" (Benveniste, 
1966), decoding the noise stemming from data collection and recording becomes 
crucial. Depending on the research object, various factors may contribute to 
data alteration, including the researcher's preconceptions or the biases 
introduced by an OCR system (Jentsch & Porada, 2020). The key challenge lies in 
predicting or identifying the potential biases induced by these factors during 
the selection and formatting of data. This enables better control over 
subsequent research stages and ensures greater accuracy in the analysis process.
2. Data preparation and pre-processing
The methods employed to refine raw data and prepare it for advanced 
manipulation can give rise to a significant source of noise (or, conversely, of 
silence, if noise elimination filters are applied). This is particularly 
evident during the data normalization process (Al Sharou et al., 2021). When 
transcribing data or correcting errors, researchers must make choices that 
inevitably influence the nature of the data, either by reducing or enriching 
its content. As a result, it becomes essential to anticipate the consequences 
of the transformations introduced by data processing methods (Tanguy, 2012).
3. The annotation process and metadata
Initially, corpus annotation aims to enrich the data by categorizing units 
through a labelling process, depending on the developed analysis model 
(Péry-Woodley et al., 2011). However, while this process has the potential to 
introduce noise, it can result in detrimental silence (when missing or 
erroneous labels lead to incomplete results during data analysis or querying). 
The concept of metadata also raises questions: does categorizing data transform 
it into something different? Furthermore, does the absence of agreement or low 
agreement in annotations produced by humans reflect inter-individual variations 
akin to noise, or does it stem from the inherent vagueness of the 
categorizations themselves?

***
At each and every step of the process, key methodological questions arise: what 
threshold can be considered acceptable for noise? How can we differentiate 
between noise and methodological bias? Is it possible to estimate noise without 
a ground truth? Which statistical tools are specific to corpus studies and 
enable the definition of confidence intervals? How can we strike a balance to 
prevent the noise resulting from compromising research outcomes?

***
Proposals for articles may address these topics from a general point of view, 
offering a theoretical and methodological perspective. Alternatively, they can 
be based on one or more case studies that focus on specific observations, while 
highlighting the noise management methods employed throughout the study.

References
Al Sharou, K., Li, Z., & Specia, L. (2021). Towards a Better Understanding of 
Noise in Natural Language Processing. Proceedings of the International 
Conference on Recent Advances in Natural Language Processing (RANLP 2021), 
5362. https://aclanthology.org/2021.ranlp-1.7
Benveniste, É. (1966). Problèmes de linguistique générale. Gallimard.
Egbert, J., & Baker, P. (Eds.). (2019). Using corpus methods to triangulate 
linguistic analysis. Routledge. Fuchs, C., & Habert, B. (2004). Le traitement 
automatique des langues : Des modèles aux ressources.
Le Français Moderne - Revue de linguistique Française, CILF (conseil 
international de la langue française), LXXII: 1, online.
Goutte, C., Carpuat, M., & Foster, G. (2012). The impact of sentence alignment 
errors on phrase-based machine translation performance. In Proceedings of the 
10th Conference of the Association for Machine Translation in the Americas: 
Research Papers.
Jentsch, P., & Porada, S. (2020). From Text to Data : Digitization, Text 
Analysis and Corpus Linguistics. In S. Schwandt (Éd.), Digital Humanities 
Research (1re éd., Vol. 1, p. 89128). transcript Verlag / Bielefeld University 
Press. https://doi.org/10.14361/9783839454190-004
Kraif, O., & Ponton, C. (2007). Du bruit, du silence et des ambiguïtés : Que 
faire du TAL pour
l'apprentissage des langues ? TALN 2007, 143152. 
https://hal.archives-ouvertes.fr/hal-01073706
Léon, J. (2018). Tal et linguistique : Application, expérimentation, 
instrumentalisation. ELA. Etudes de linguistique appliquee, 2(190), 195203.
Litosseliti, L. (Ed.). (2018). Research methods in linguistics. Bloomsbury 
Publishing.
Molinelli, P., & Putzu, I. (2015). Modelli epistemologici, metodologie della 
ricerca e qualità del dato. Dalla linguistica storica alla sociolinguistica 
storica. Franco Angeli.
Péry-Woodley, M.-P., Afantenos, S. D., Ho-Dac, L.-M., & Asher, N. (2011). La 
ressource ANNODIS, un
corpus enrichi d'annotations discursives. TAL, 52(3), 71101.
Sarrica, M., Mingo, I., Mazzara, B., & Leone, G. (2016). The effects of 
lemmatization on textual analysis conducted with IRaMuTeQ: results in 
comparison. JADT2016: 13ème Journées Internacionales d'Analyse Statistique de 
Données Textuelles.
Scaglione, F. (2018). "Lavorare"; il dato linguistico: Prospettive e limiti. 
Alcune considerazioni dall'esperienza dell'Atlante Linguistico della Sicilia 
(ALS). In G. Sampino (Éd.), Atti del convegno internazionale dei dottorandi (p. 
101122).
Tanguy, L. (2012). Complexification des données et des techniques en 
linguistique : contribution du TAL aux solutions et aux problèmes. HDR 
dissertation, Université de Toulouse 2 - le Mirail.
Zalmout, N., Erdmann, A., & Habash, N. (2018). Noise-robust morphological 
disambiguation for dialectal Arabic. In Proceedings of the 2018 Conference of 
the North American Chapter of the Association for Computational Linguistics: 
Human Language Technologies, Volume 1 (Long Papers) (pp. 953-964).
Zeroual, I. (2018). Building Arabic Corpora: Concepts, Methodologies, Tools, 
and Experiments (Doctoral dissertation, University of Maryland, USA).

Retro-planning
* July 2023: call for publications.
* 17 November: pre-selection based on article summaries.
* March 2024: article submission deadline.
* June 2024: response to the authors.
* June-October 2024: review process with authors to submit the final version of 
the article.
* November-December 2024: editing process.
* January 2025: publication.

Please note that this retro-planning outlines a general timeline and may vary 
depending on the specific publication requirements.

Abstract submission
* Your abstract should be no longer than 1,500 words, including bibliographical 
references.
* Please submit your abstracts by November 10, 2023 to 
elisa.guglio...@ilc.cnr.it and luca.palla...@univ-lyon2.fr.

----- FRENCH VERSION------
Bruit de fond ou valeur ajoutée ? Gérer le bruit lors des traitements 
informatiques des corpus linguistiques
Sous la direction de Elisa Gugliotta, Luca Pallanti, Olivier Kraif, Iris Fabry 
et Martina Barletta

L'influence croissante des méthodologies liées au TAL sur la linguistique de 
corpus oblige les chercheurs à réinterroger les pratiques de gestion du bruit 
et son impact dans les résultats de recherche (Fuchs & Habert, 2004 ; Léon, 
2018 ; Zalmout et al., 2018). Qu'il s'agisse de corpus en diachronie longue 
(ex. français médiéval), de corpus dialectaux aux ressources limitées (ex. 
textes oraux ou écrits en arabe dialectal, cf. arabizi), ou encore de corpus de 
textes éloignés de la norme (ex. corpus d'apprenants), l'analyse du bruit est 
une étape nécessaire pour tirer des conclusions linguistiques des données ainsi 
évaluées (Molinelli & Putzu, 2015 ; Scaglione, 2018 ; Litosseliti, 2018). Ce 
numéro thématique de la revue Corpus, qui fait suite à une journée d'étude sur 
le même thème organisée en avril 2023 
(https://je-bruit-corpus.sciencesconf.org/), sera l'occasion de réfléchir sur 
les méthodes de gestion du bruit dans les domaines du TAL et de la linguistique 
de corpus outillée, et à son impact sur la qualité des données linguistiques 
(Kraif et Ponton, 2007 ; Goutte et al., 2012 ; Zeroual, 2018).

Les questions sous-jacentes à toute étude linguistique concernent la définition 
de l'objet de recherche, la nature des données elles-mêmes, et la manière de 
préserver autant que possible leurs caractéristiques dans les différents 
traitements (lemmatisation, normalisation, étiquetage, etc.) (Sarrica et al., 
2016). Ainsi, le choix des méthodes d'identification et de contrôle du bruit, 
de la phase de collecte à celle d'archivage, de la préparation des données à 
l'annotation, joue un rôle fondamental (Egbert & Baker, 2019). La définition 
même du bruit est multiple, et ne va pas de soi : dans le seul champ du TAL, ce 
terme, souvent peu interrogé, désigne des phénomènes variables et très 
hétérogènes, allant des péritextes du Web - hyperliens, menus et codes 
informatiques - au code switching, en passant par les erreurs d'orthographe ou 
de grammaire qui émaillent les productions (Al Sharou et al., 2021).

Ce numéro thématique propose de mener une réflexion sur la définition du bruit, 
dans une perspective linguistique, et sur les pratiques des chercheurs visant à 
réduire la portée des biais qui en découlent, que ce soit durant la collecte, 
l'enregistrement ou l'annotation des données. Dans le concret de la recherche, 
la question du bruit se pose à chaque étape de la démarche empirique de 
construction et d'analyse des données :

1. Le bruit pendant la collecte et l'enregistrement des données
Si l'on accepte le postulat selon lequel " la donnée linguistique est un 
résultat " (Benveniste, 1966), comment décoder le bruit causé par le recueil 
des données et leur enregistrement ? En effet, en fonction des objets de 
recherche, il existe des facteurs potentiels d'altération des données, comme 
par exemple les préconceptions du chercheur, ou les biais introduits par un 
système OCR donné (Jentsch & Porada, 2020). L'enjeu consiste alors à prédire ou 
à déterminer les biais potentiels induits par ces facteurs lors de la sélection 
et la mise en forme des données pour mieux contrôler les phases de recherche 
successives.

2. La préparation et le prétraitement des données.
Les méthodes choisies pour affiner les données brutes et les rendre disponibles 
pour des manipulations avancées peuvent représenter une importante source de 
bruit (ou, au contraire, de silence si on applique un filtre pour éliminer le 
bruit) : c'est notamment le cas du processus de normalisation des données (Al 
Sharou et al., 2021). Qu'il s'agisse de transcrire des données ou de corriger 
des erreurs, le chercheur fait des choix qui impactent nécessairement la nature 
des données, soit en les réduisant, soit en les enrichissant. Il s'agit donc 
d'anticiper les conséquences des transformations produites par les méthodes de 
traitement des données (Tanguy, 2012).

3. Le processus d'annotation et les métadonnées
À la base, l'annotation des corpus est une étape visant l'enrichissement des 
données : en fonction du modèle d'analyse mis au point, le chercheur tente de 
catégoriser des unités à travers un processus d'étiquetage (Péry-Woodley et 
al., 2011). Cependant, si d'un côté ce processus peut générer du bruit, de 
l'autre, il peut être une cause de silence fort préjudiciable aux résultats des 
recherches et à leur interprétation (des étiquettes absentes ou erronées 
pouvant générer des résultats lacunaires lors de l'analyse ou du requêtage des 
données). La notion de métadonnée peut également être mise en cause: 
catégoriser une donnée signifie-t-il la transformer en quelque chose d'autre ? 
Par ailleurs, l'absence d'accord ou un faible accord dans les annotations 
produites par l'humain manifeste-t-il des variations interindividuelles 
assimilables à du bruit, ou au caractère trop vague des catégorisations en jeu ?
***
A chaque étape se posent des questions méthodologiques centrales : à partir de 
quel seuil peut-on considérer le bruit comme acceptable ? Comment différencier 
bruit et biais méthodologique ? Comment estimer le bruit sans vérité de terrain 
? Quels outils statistiques spécifiques à l'étude des corpus permettent de 
délimiter des intervalles de confiance ? Comment atteindre l'équilibre 
nécessaire pour que le bruit causé par les traitements des données ne 
compromette pas les résultats des recherches ?
***
Les propositions d'article pourront aborder ces questions d'un point de vue 
général, sous un angle théorique et méthodologique, ou s'appuyer sur une ou 
plusieurs études de cas portant sur des observations particulières, en prenant 
soin de mettre en lumière les méthodes de gestion du bruit tout au long de 
l'étude.

Retro-planning
* Juillet 2023 : publication du l'Appel
* 17 novembre 2023 : pré-sélection sur résumé
* Mars 2024 : remise des articles. Juin 2024 : réponse aux auteurs
* Juin-octobre 2024 : navette avec les auteurs pour remise de l'article en 
forme définitive.
* Novembre-décembre 2024 : édition.
* Janvier 2025 : publication.

Soumission des résumés
* Votre résumé comptera 1.500 mots au maximum, références bibliographiques 
inclues.
* Merci de soumettre vos résumés pour le 10 novembre 2023 aux adresses 
elisa.guglio...@ilc.cnr.it et luca.palla...@univ-lyon2.fr

Références
Al Sharou, K., Li, Z., & Specia, L. (2021). Towards a Better Understanding of 
Noise in Natural Language Processing. Proceedings of the International 
Conference on Recent Advances in Natural Language Processing (RANLP 2021), 
5362. https://aclanthology.org/2021.ranlp-1.7
Benveniste, É. (1966). Problèmes de linguistique générale. Gallimard.
Egbert, J., & Baker, P. (Eds.). (2019). Using corpus methods to triangulate 
linguistic analysis. Routledge. Fuchs, C., & Habert, B. (2004). Le traitement 
automatique des langues : Des modèles aux ressources.
Le Français Moderne - Revue de linguistique Française, CILF (conseil 
international de la langue française), LXXII: 1, online.
Goutte, C., Carpuat, M., & Foster, G. (2012). The impact of sentence alignment 
errors on phrase-based machine translation performance. In Proceedings of the 
10th Conference of the Association for Machine Translation in the Americas: 
Research Papers.
Jentsch, P., & Porada, S. (2020). From Text to Data : Digitization, Text 
Analysis and Corpus Linguistics. In S. Schwandt (Éd.), Digital Humanities 
Research (1re éd., Vol. 1, p. 89128). transcript Verlag / Bielefeld University 
Press. https://doi.org/10.14361/9783839454190-004
Kraif, O., & Ponton, C. (2007). Du bruit, du silence et des ambiguïtés : Que 
faire du TAL pour
l'apprentissage des langues ? TALN 2007, 143152. 
https://hal.archives-ouvertes.fr/hal-01073706
Léon, J. (2018). Tal et linguistique : Application, expérimentation, 
instrumentalisation. ELA. Etudes de linguistique appliquee, 2(190), 195203.
Litosseliti, L. (Ed.). (2018). Research methods in linguistics. Bloomsbury 
Publishing.
Molinelli, P., & Putzu, I. (2015). Modelli epistemologici, metodologie della 
ricerca e qualità del dato. Dalla linguistica storica alla sociolinguistica 
storica. Franco Angeli.
Péry-Woodley, M.-P., Afantenos, S. D., Ho-Dac, L.-M., & Asher, N. (2011). La 
ressource ANNODIS, un
corpus enrichi d'annotations discursives. TAL, 52(3), 71101.
Sarrica, M., Mingo, I., Mazzara, B., & Leone, G. (2016). The effects of 
lemmatization on textual analysis conducted with IRaMuTeQ: results in 
comparison. JADT2016: 13ème Journées Internacionales d'Analyse Statistique de 
Données Textuelles.
Scaglione, F. (2018). "Lavorare"; il dato linguistico: Prospettive e limiti. 
Alcune considerazioni dall'esperienza dell'Atlante Linguistico della Sicilia 
(ALS). In G. Sampino (Éd.), Atti del convegno internazionale dei dottorandi (p. 
101122).
Tanguy, L. (2012). Complexification des données et des techniques en 
linguistique : contribution du TAL aux solutions et aux problèmes. HDR 
dissertation, Université de Toulouse 2 - le Mirail.
Zalmout, N., Erdmann, A., & Habash, N. (2018). Noise-robust morphological 
disambiguation for dialectal Arabic. In Proceedings of the 2018 Conference of 
the North American Chapter of the Association for Computational Linguistics: 
Human Language Technologies, Volume 1 (Long Papers) (pp. 953-964).
Zeroual, I. (2018). Building Arabic Corpora: Concepts, Methodologies, Tools, 
and Experiments (Doctoral dissertation, University of Maryland, USA).

_______________________________________________
Corpora mailing list -- corpora@list.elra.info
https://list.elra.info/mailman3/postorius/lists/corpora.list.elra.info/
To unsubscribe send an email to corpora-le...@list.elra.info

Reply via email to