Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español

Cabrera Díaz, Daniel Alonso

dc.contributor.advisor	Sobrevilla Cabezudo, Marco Antonio
dc.contributor.author	Cabrera Díaz, Daniel Alonso
dc.date.accessioned	2024-09-18T17:33:02Z
dc.date.available	2024-09-18T17:33:02Z
dc.date.created	2024
dc.date.issued	2024-09-18
dc.identifier.uri	http://hdl.handle.net/20.500.12404/28908
dc.description.abstract	Esta tesis abordó el desarrollo de recursos computacionales para la detección y clasificación de disfluencias de tartamudez en español, cubriendo desde la recolección y anotación de audios hasta la implementación de un modelo de aprendizaje automático y estrategias de aumento de datos. Se recolectaron audios en español de cinco participantes con tartamudez, conformes a los estándares del dataset SEP-28K y con apoyo de dos especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones limitó la diversidad de disfluencias observadas, estos audios proporcionaron una base sólida para el desarrollo del modelo. El modelo presentado se basó en el modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0 XLSR53 aprovechando su robusta base de datos multilingüe. El modelo demostró su capacidad para identificar y clasificar disfluencias en español, aunque su rendimiento fue inferior comparado con modelos equivalentes en inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la detección de disfluencias, se implementaron dos estrategias de aumento de datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales, como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de disfluencias en contextos de habla espontánea y procesar los audios restantes del corpus inicial para explorar mejoras en la clasificación y detección de disfluencias. Además, se explorarán métodos avanzados de clonación de voz y otras técnicas de modificación de audios para enriquecer los datasets y mejorar los modelos de detección y clasificación de disfluencias.	es_ES
dc.description.abstract	This thesis focused on the development of computational resources for the detection and classification of stuttering disfluencies in Spanish, spanning from the collection and annotation of audio data to the implementation of a machine learning model and data augmentation strategies. Audios in Spanish from five participants with stuttering were collected, adhering to the SEP-28K dataset standards and supported by two specialists in stuttering. Although the controlled nature of the recordings limited the diversity of observed disfluencies, these audios provided a solid foundation for the model development. The model was based on the DisfluencyNet and pre-trained using wav2vec 2.0 XLSR53, leveraging its robust multilingual database. The model demonstrated its ability to identify and classify disfluencies in Spanish, though its performance was inferior compared to similar models in English, highlighting the need for more data. To enhance disfluency detection, two data augmentation strategies were implemented. The first involved pitch variations, reverberation addition, and white noise, effectively doubling the available data. Although this strategy improved recall for certain disfluencies, precision and F1 results were mixed. The second strategy, using voice cloning with the XTTS-v2 model, generated new audios that emulated natural disfluencies, such as prolongations and blocks. While it enhanced recall, particularly in later rounds of data augmentation, precision and F1 continued to be challenging. Future research will focus on expanding the annotation of disfluencies in spontaneous speech contexts and processing the remaining audios from the initial corpus to explore improvements in classification and detection of disfluencies. Additionally, advanced voice cloning methods and other audio modification techniques will be explored to enrich the datasets and enhance the detection and classification models.	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Pontificia Universidad Católica del Perú	es_ES
dc.rights	info:eu-repo/semantics/openAccess	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by/2.5/pe/	*
dc.subject	Tartamudez--Procesamiento de datos	es_ES
dc.subject	Aprendizaje automático (Inteligencia artificial)	es_ES
dc.subject	Aprendizaje profundo (Aprendizaje automático)	es_ES
dc.subject	Reconocimiento automático del habla	es_ES
dc.title	Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en español	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
thesis.degree.name	Maestro en Informática con mención en Ciencias de la Computación	es_ES
thesis.degree.level	Maestría	es_ES
thesis.degree.grantor	Pontificia Universidad Católica del Perú. Escuela de Posgrado.	es_ES
thesis.degree.discipline	Informática con mención en Ciencias de la Computación	es_ES
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#1.02.00	es_ES
dc.publisher.country	PE	es_ES
renati.advisor.dni	46299018
renati.advisor.orcid	https://orcid.org/0000-0001-7625-9914	es_ES
renati.author.dni	74290451
renati.discipline	611087	es_ES
renati.juror	Melgar Sasieta, Hector Andres	es_ES
renati.juror	Sobrevilla Cabezudo, Marco Antonio	es_ES
renati.juror	Oncevay Marcos, Felix Arturo	es_ES
renati.level	https://purl.org/pe-repo/renati/level#maestro	es_ES
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_ES

Files in this item

Files	Size	Format	View
There are no files associated with this item.

This item appears in the following Collection(s)

Informática con mención en Ciencias de la Computación

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess