Desenvolvimento de uma ferramenta computacional para análise de dados não estruturados

Vera Lúcia Ferreira, Paulo Henrique Seixas Leite, Fernando Luis Dias, Aden Rodrigues Pereira

Resumo


O presente artigo apresenta a primeira versão de ferramenta computacional para análise de dados não estruturados, desenvolvida em linguagem Python e embasada em técnicas de mineração de texto. A ferramenta proposta tem como foco central a extração da frequência de palavras, bem como a determinação da matriz de termo de ocorrências de um corpus textual. A aplicação do experimento valeu-se de um corpus textual do gênero notícias composto por 18 textos cedidas pelo projeto de pesquisa “A intermediação da Linguística de Corpus na análise e interpretação de dados quali-quantitativos dos gêneros discursivo-textuais nos processos de Ensino, Aprendizagem e Letramento de Línguas”. Como resultados são apresentados gráficos com a frequência de palavras, nuvem de palavras, bem como um dendrograma mostrando a similaridade entre textos do gênero notícias produzido a partir da matriz de ocorrência saída da ferramenta computacional. Os resultados mostraram que alguns usuários da língua portuguesa atingiram as competências desejáveis para produção textual, com escritas fortemente padronizadas em relação aos verbos dicendi que caracterizam o gênero notícia.

Palavras-chave


Dados Não Estruturados; Ferramenta Computacional; Similaridade de Corpus Textual.

Texto completo:

PDF

Referências


ABDULLAH, S. M ; ALI, S.M, MAKTTOF, A.B. Modifying Jaccard Coeffcient for Texts Similarity. Revista de Ciências Humanas y Sociales, Año 35, Nº Especial 19 (2019):2899-2921p.

ALDENDERFER, M. S.; BLASHFIELD, R. K. Cluster Analysis. Beverly Hills, CA: Sage, 1984. 88 p.

BOENTE, Alfredo Nazareno Pereira; ROSA, José Luiz Dos Anjos. Utilização de Ferramentas de KDD para Integração de Aprendizagem e Tecnologia em Busca da Gestão Estratégica do Conhecimento na Empresa. Seget, http://www. aedb. br/seget/artigos07/1219_Artigo% 20SEGET, v. 202007, 2007.

DA SILVA, Rogério Oliveira; SILVA, Igor Rodrigues Sousa. Linguagem de Programação Python. TECNOLOGIAS EM PROJEÇÃO, v. 10, n. 1, p. 55-71, 2019.

DE MEDEIROS, Wagner Oliveira; PINHO, Fabio Assis; CORREA, Renato Fernandes. APLICAÇÃO DE SOFTWARE DE MINERAÇÃO DE TEXTO NA REPRESENTAÇÃO DA INFORMAÇÃO DE OBRAS ARTÍSTICO-PICTÓRICAS. Logeion: Filosofia da Informação, v. 6, n. 1, p. 146-170, 2019.

DRIEGER, P. Semantic Network Analysis as a Method for Visual Text Analytics. Procedia - Social and Behavioral Sciences, v. 79, p. 04-17, 2013.

EVERITT, B.; LANDAU, S.; LEESE, M. Cluster Analysis. A Hodder Arnold Publication. Willey, London, 2001.

FERREIRA, Márcio Henrique Wanderley; CORREA, Renato Fernandes. Mineração de textos científicos: análise de artigos de periódicos científicos brasileiros da área de Ciência da Informação. Em Questão, v. 27, n. 1, p. 237-262, 2021.

FIORIO, Rosaine et al. Linguisticun: Uma Ferramenta de Auxílio ao Ensino da Língua Portuguesa e à Linguística Computacional. In: Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE). 2019. p. 11.

GIL, Carmem Zeli Vargas; SEFFNER, Fernando. Dois monólogos não fazem um diálogo: jovens e ensino médio. Educação & Realidade, v. 41, p. 175-192, 2016.

KLEMANN, Miriam; REATEGUI, Eliseo; RAPKIEWICZ, Clevi. Análise de ferramentas de mineração de textos para apoio a produção textual. In: Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE). 2012.

MAIA, Luiz Cláudio; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da informação, v. 15, p. 154-172, 2010.

MARCUSCHI, Luiz Antônio. Gêneros textuais: definição e funcionalidade. In: Gêneros textuais e ensino. 2. ed. Ângela Paiva Dionísio, Ana Rachel Machado, Maria Auxiliadora Bezerra (Orgs). São Paulo: Parábola Editorial, 2003.

MATUI, Natália da Conceição. Mapeamento semântico do conceito de inovação para a ciência da informação: uma análise gramático-sistêmico funcional. 2020.. Dissertação (Mestrado em Ciência da Informação) – Programa de Pós-Graduação em Ciência da Informação, Universidade Federal de São Carlos, 2020.

PEREIRA, Aden R. Análise contrastiva de verbos dicendi em textos jornalísticos de corpus paralelo português-espanhol à luz da Linguística de Corpus. In: NADIN, Odair FERREIRA, Anise A. G. D.; FARGETI, Cristina M. (orgs.) Léxico e suas interfaces: descrição, reflexão e ensino. São Paulo/: Cultura Acadêmica, 2016. pp. 177-197.

________; JURGINA, Daniele. A intermediação da Linguística de Corpus na análise e interpretação de dados quali-quantitativos dos gêneros discursivo-textuais nos processos de Ensino, Aprendizagem e Letramento de Línguas. Revista EALQ 2021.(no prelo)

SCARPA, Alice Duarte. Técnicas de processamento de linguagem natural aplicadas às Ciências Sociais. 2017. Tese de Doutorado.

SOUZA, Adriano; FORTES, Reinaldo; LIMA, Joubert. OLAP Textual com Múltiplas Hierarquias de Tópicos e Rankings Segmentados. In: Anais do XIII Simpósio Brasileiro de Sistemas de Informação. SBC, 2017. p. 480-487.


Apontamentos

  • Não há apontamentos.