Pre-trained data augmentation for text classification
Arquivos
Data
Autores
Abonizio, Hugo Queiroz
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto
Descrição
Palavras-chave
Computação, Data augmentation, Redes sociais on-line, Processamento da linguagem natural (Computação), Classificação de textos (Computação), Computer science, Data augmentation, Online social networks, Natural language processing (Computer science), Text