Pre-trained data augmentation for text classification

dataload.collectionmapped02 - Mestrado - Ciência da Computaçãopt_BR
dataload.filenamenourau7987.pdfpt_BR
dataload.handlemapped123456789/50pt_BR
dataload.idpergamum9135pt_BR
dataload.idvirtuanourauvtls000233665pt_BR
dataload.idvirtuapergamumvtls000233665pt_BR
dataload.idvirtuapergamum.sameurlnourauSIMpt_BR
dataload.linknourauhttp://www.bibliotecadigital.uel.br/document/?code=vtls000233665pt_BR
dataload.linknourau.regularSIMpt_BR
dataload.linknourau.retificadohttp://www.bibliotecadigital.uel.br/document/?code=vtls000233665pt_BR
dataload.linknourau.size64.00pt_BR
dc.contributor.advisorBarbon Junior, Sylvio [Orientador]pt_BR
dc.contributor.authorAbonizio, Hugo Queirozpt_BR
dc.contributor.bancaKaster, Daniel dos Santospt_BR
dc.contributor.bancaZarpelão, Bruno Bogazpt_BR
dc.contributor.bancaParaiso, Emerson Cabrerapt_BR
dc.coverage.spatialLondrinapt_BR
dc.date.accessioned2024-05-01T11:33:22Z
dc.date.available2024-05-01T11:33:22Z
dc.date.created2021.00pt_BR
dc.date.defesa26.02.2021pt_BR
dc.description.abstractResumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de textopt_BR
dc.description.abstractother1Abstract: Data augmentation is a widely adopted method for improving model performance in image classification tasks Despite not being as ubiquitous in the Natural Language Processing (NLP) community, some methods have already been proposed to increase training data using simple text transformations or text generation through language models However, recent text classification tasks need to deal with domains characterized by a small amount of text and informal writing, eg, Online Social Networks content, reducing current methods’ capabilities Facing these challenges by taking advantage of pre-trained language models and model compression, we proposed the PRE-trained Data Augmen- TOR (PREDATOR) method Our data augmentation method is composed of two modules: the Generator, which synthesizes new samples grounded on a lightweight model, and the Filter, which selects only the high-quality ones The experiments comparing Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) and Multinomial Naïve Bayes (NB) in six datasets exposed an effective improvement in performance It obtained 285% of accuracy improvement with LSTM on the best scenario and an average improvement of 8% on the low-data regime On imbalanced datasets, it improved in 64% the ??1-score PREDATOR was able to augment real-world datasets from social media, clinical reports, among other domains, overcoming recent text augmentation techniquespt_BR
dc.description.notesDissertação (Mestrado em Ciência da Computação) - Universidade Estadual de Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência da Computaçãopt_BR
dc.identifier.urihttps://repositorio.uel.br/handle/123456789/8381
dc.languagepor
dc.relation.coursedegreeMestradopt_BR
dc.relation.coursenameCiência da Computaçãopt_BR
dc.relation.departamentCentro de Ciências Exataspt_BR
dc.relation.ppgnamePrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.subjectComputaçãopt_BR
dc.subjectData augmentationpt_BR
dc.subjectRedes sociais on-linept_BR
dc.subjectProcessamento da linguagem natural (Computação)pt_BR
dc.subjectClassificação de textos (Computação)pt_BR
dc.subjectComputer sciencept_BR
dc.subjectData augmentationpt_BR
dc.subjectOnline social networkspt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.subjectTextpt_BR
dc.titlePre-trained data augmentation for text classificationpt_BR
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
7987.pdf
Tamanho:
1.12 MB
Formato:
Adobe Portable Document Format