Closed ogecece closed 2 years ago
@adanibello o dataset está disponível aqui.
São 6923 linhas no total. Dessas, vi que 58 são duplicadas. Comecei a investigar aqui pra ver se são de subtemas diferentes mas acredito que não deve atrapalhar a análise por enquanto então deixei elas no dataset.
Além das colunas indicadas acima, adicionei uma para Subtema também. Pra facilitar a avaliação acima.
Vamos começar a analisar, @giuliocc ! (cc: @Maria-Luciano )
A título de registro, a análise terá como base a categorização construída durante a fase piloto, estruturada da seguinte forma:
Se necessário, ajustes e alterações poderão ser feitos ao longo da evolução das análises.
Descrição
Com as novas queries (#16), um novo dataset deve ser gerado para possibilitar a 1ª análise. Os campos que devem existir no dataset são:
O
Excerto
deve conter a marcação das palavras que deram match.As buscas têm como base os termos discutidos em #13 , e será realizada para as 27 cidades disponíveis no Querido Diário até a primeira quinzena de maio:
Os excertos devem conter entradas a partir de 01/01/2020 até 30/04/2022.
Objetivo
Criar novo dataset com queries atualizadas para que a 1ª análise seja realizada.
Definição de "pronto":