Pre-trained data augmentation for text classification

Abonizio, Hugo Queiroz

Pre-trained data augmentation for text classification

dataload.collectionmapped	02 - Mestrado - Ciência da Computação	pt_BR
dataload.filenamenourau	7987.pdf	pt_BR
dataload.handlemapped	123456789/50	pt_BR
dataload.idpergamum	9135	pt_BR
dataload.idvirtuanourau	vtls000233665	pt_BR
dataload.idvirtuapergamum	vtls000233665	pt_BR
dataload.idvirtuapergamum.sameurlnourau	SIM	pt_BR
dataload.linknourau	http://www.bibliotecadigital.uel.br/document/?code=vtls000233665	pt_BR
dataload.linknourau.regular	SIM	pt_BR
dataload.linknourau.retificado	http://www.bibliotecadigital.uel.br/document/?code=vtls000233665	pt_BR
dataload.linknourau.size	64.00	pt_BR
dc.contributor.advisor	Barbon Junior, Sylvio [Orientador]	pt_BR
dc.contributor.author	Abonizio, Hugo Queiroz	pt_BR
dc.contributor.banca	Kaster, Daniel dos Santos	pt_BR
dc.contributor.banca	Zarpelão, Bruno Bogaz	pt_BR
dc.contributor.banca	Paraiso, Emerson Cabrera	pt_BR
dc.coverage.spatial	Londrina	pt_BR
dc.date.accessioned	2024-05-01T11:33:22Z
dc.date.available	2024-05-01T11:33:22Z
dc.date.created	2021.00	pt_BR
dc.date.defesa	26.02.2021	pt_BR
dc.description.abstract	Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto	pt_BR
dc.description.abstractother1	Abstract: Data augmentation is a widely adopted method for improving model performance in image classification tasks Despite not being as ubiquitous in the Natural Language Processing (NLP) community, some methods have already been proposed to increase training data using simple text transformations or text generation through language models However, recent text classification tasks need to deal with domains characterized by a small amount of text and informal writing, eg, Online Social Networks content, reducing current methods’ capabilities Facing these challenges by taking advantage of pre-trained language models and model compression, we proposed the PRE-trained Data Augmen- TOR (PREDATOR) method Our data augmentation method is composed of two modules: the Generator, which synthesizes new samples grounded on a lightweight model, and the Filter, which selects only the high-quality ones The experiments comparing Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) and Multinomial Naïve Bayes (NB) in six datasets exposed an effective improvement in performance It obtained 285% of accuracy improvement with LSTM on the best scenario and an average improvement of 8% on the low-data regime On imbalanced datasets, it improved in 64% the ??1-score PREDATOR was able to augment real-world datasets from social media, clinical reports, among other domains, overcoming recent text augmentation techniques	pt_BR
dc.description.notes	Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.identifier.uri	https://repositorio.uel.br/handle/123456789/8381
dc.language	por
dc.relation.coursedegree	Mestrado	pt_BR
dc.relation.coursename	Ciência da Computação	pt_BR
dc.relation.departament	Centro de Ciências Exatas	pt_BR
dc.relation.ppgname	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.subject	Computação	pt_BR
dc.subject	Data augmentation	pt_BR
dc.subject	Redes sociais on-line	pt_BR
dc.subject	Processamento da linguagem natural (Computação)	pt_BR
dc.subject	Classificação de textos (Computação)	pt_BR
dc.subject	Computer science	pt_BR
dc.subject	Data augmentation	pt_BR
dc.subject	Online social networks	pt_BR
dc.subject	Natural language processing (Computer science)	pt_BR
dc.subject	Text	pt_BR
dc.title	Pre-trained data augmentation for text classification	pt_BR
dc.type	Dissertação	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: 7987.pdf
Tamanho:: 1.12 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

02 - Mestrado - Ciência da Computação