Pre-trained data augmentation for text classification
dataload.collectionmapped | 02 - Mestrado - Ciência da Computação | pt_BR |
dataload.filenamenourau | 7987.pdf | pt_BR |
dataload.handlemapped | 123456789/50 | pt_BR |
dataload.idpergamum | 9135 | pt_BR |
dataload.idvirtuanourau | vtls000233665 | pt_BR |
dataload.idvirtuapergamum | vtls000233665 | pt_BR |
dataload.idvirtuapergamum.sameurlnourau | SIM | pt_BR |
dataload.linknourau | http://www.bibliotecadigital.uel.br/document/?code=vtls000233665 | pt_BR |
dataload.linknourau.regular | SIM | pt_BR |
dataload.linknourau.retificado | http://www.bibliotecadigital.uel.br/document/?code=vtls000233665 | pt_BR |
dataload.linknourau.size | 64.00 | pt_BR |
dc.contributor.advisor | Barbon Junior, Sylvio [Orientador] | pt_BR |
dc.contributor.author | Abonizio, Hugo Queiroz | pt_BR |
dc.contributor.banca | Kaster, Daniel dos Santos | pt_BR |
dc.contributor.banca | Zarpelão, Bruno Bogaz | pt_BR |
dc.contributor.banca | Paraiso, Emerson Cabrera | pt_BR |
dc.coverage.spatial | Londrina | pt_BR |
dc.date.accessioned | 2024-05-01T11:33:22Z | |
dc.date.available | 2024-05-01T11:33:22Z | |
dc.date.created | 2021.00 | pt_BR |
dc.date.defesa | 26.02.2021 | pt_BR |
dc.description.abstract | Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto | pt_BR |
dc.description.abstractother1 | Abstract: Data augmentation is a widely adopted method for improving model performance in image classification tasks Despite not being as ubiquitous in the Natural Language Processing (NLP) community, some methods have already been proposed to increase training data using simple text transformations or text generation through language models However, recent text classification tasks need to deal with domains characterized by a small amount of text and informal writing, eg, Online Social Networks content, reducing current methods’ capabilities Facing these challenges by taking advantage of pre-trained language models and model compression, we proposed the PRE-trained Data Augmen- TOR (PREDATOR) method Our data augmentation method is composed of two modules: the Generator, which synthesizes new samples grounded on a lightweight model, and the Filter, which selects only the high-quality ones The experiments comparing Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) and Multinomial Naïve Bayes (NB) in six datasets exposed an effective improvement in performance It obtained 285% of accuracy improvement with LSTM on the best scenario and an average improvement of 8% on the low-data regime On imbalanced datasets, it improved in 64% the ??1-score PREDATOR was able to augment real-world datasets from social media, clinical reports, among other domains, overcoming recent text augmentation techniques | pt_BR |
dc.description.notes | Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.identifier.uri | https://repositorio.uel.br/handle/123456789/8381 | |
dc.language | por | |
dc.relation.coursedegree | Mestrado | pt_BR |
dc.relation.coursename | Ciência da Computação | pt_BR |
dc.relation.departament | Centro de Ciências Exatas | pt_BR |
dc.relation.ppgname | Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.subject | Computação | pt_BR |
dc.subject | Data augmentation | pt_BR |
dc.subject | Redes sociais on-line | pt_BR |
dc.subject | Processamento da linguagem natural (Computação) | pt_BR |
dc.subject | Classificação de textos (Computação) | pt_BR |
dc.subject | Computer science | pt_BR |
dc.subject | Data augmentation | pt_BR |
dc.subject | Online social networks | pt_BR |
dc.subject | Natural language processing (Computer science) | pt_BR |
dc.subject | Text | pt_BR |
dc.title | Pre-trained data augmentation for text classification | pt_BR |
dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1