PROCESSAMENTO DE LINGUAGEM NATURAL APLICADO A POSTAGENS EM PORTUGUÊS NO TWITTER

Autores

Resumo

Todos os dias, devido à grande utilização de redes sociais por parte da sociedade, milhões de terabytes de dados não estruturados são gerados. Com isso, empresas e pesquisadores na área de dados encontram neste volume de informação uma possibilidade de realizar estudos, para compreender padrões no comportamento dos usuários, entre outras diversas análises possíveis. Com isso, neste trabalho tivemos como objetivo construir um sistema capaz de realizar análises assertivas e de fácil compreensão, de postagens na rede social Twitter, sobre qualquer assunto desejado. Para cumprir com essa meta, foi desenvolvido um pipeline de tarefas, onde realizamos a captura dessas postagens, em seguida, um modelo de Processamento de Linguagem Natural (NLP) foi construído para classificar os tweets, alcançando 80% de acurácia e F1-Score médio de 79,66%. Após essas etapas, foram realizadas análises com as informações disponíveis, como a criação de Nuvens de Palavras e um estudo de Correlação entre os termos mais utilizados nos tweets e a classificação realizada pelo modelo, com o intuito de auxiliar os usuários finais do sistema na análise comportamental dos usuários na rede social. Por fim, com este projeto buscamos contribuir com trabalhos desenvolvidos no Brasil na área de dados, visto que nosso sistema foi desenvolvido com a proposta de analisar textos em português.

Biografia do Autor

Henrique De Menezes Alves Junior, IBM

Especialista em data science

Murilo Henrique Tank Fortunato, Pecege

Biólogo, mestre em ciências ambientais e doutor em agricultura sustentável.

Downloads

Publicado

27-06-2024