Gerar novo dataset a partir das indicações da 1ª Oficina

ogecece commented 2 years ago

Descrição

Com as novas queries (#16), um novo dataset deve ser gerado para possibilitar a 1ª análise. Os campos que devem existir no dataset são:

URL TXT
URL PDF Original
URL PDF
UF
Município
Data de publicação
Excerto

O Excerto deve conter a marcação das palavras que deram match.

As buscas têm como base os termos discutidos em #13 , e será realizada para as 27 cidades disponíveis no Querido Diário até a primeira quinzena de maio:

Araguaína (TO)
Belém (PA)
Belo Horizonte (MG)
Boa Vista (RR)
Brasília (DF)
Caxias (MA)
Campo Grande (MS)
Cuiabá (MT)
Curitiba (PR)
Feira de Santana (BA)
Florianópolis (SC)
Goiânia (GO)
Jaboatão dos Guararapes (PE)
João Pessoa (PB)
Jundiaí (SP)
Maceió (AL)
Manaus (AM)
Mossoró (RN)
Natal (RN)
Palmas (TO)
Petrolina (PE)
Porto Alegre (RS)
Rio de Janeiro (RJ)
Recife (PE)
Salvador (BA)
Sumaré (SP)
Teresina (PI)

Os excertos devem conter entradas a partir de 01/01/2020 até 30/04/2022.

Objetivo

Criar novo dataset com queries atualizadas para que a 1ª análise seja realizada.

Definição de "pronto":

Dataset validado pela equipe de Advocacy
Arquivo no Drive com o dataset

ogecece commented 2 years ago

@adanibello o dataset está disponível aqui.

São 6923 linhas no total. Dessas, vi que 58 são duplicadas. Comecei a investigar aqui pra ver se são de subtemas diferentes mas acredito que não deve atrapalhar a análise por enquanto então deixei elas no dataset.

Além das colunas indicadas acima, adicionei uma para Subtema também. Pra facilitar a avaliação acima.

adanibello commented 2 years ago

Vamos começar a analisar, @giuliocc ! (cc: @Maria-Luciano )

adanibello commented 2 years ago

A título de registro, a análise terá como base a categorização construída durante a fase piloto, estruturada da seguinte forma:

Item | Descrição | Classificação -- | -- | -- Escopo | Indica se o resultado obtido está ou não dentro do escopo da investigação. | "Sim" ou "Não'" Objeto | Indica a natureza da tecnologia à qual o resultado se refere. | "Solução de software" ou "Tecnologia de infraestrutura" Categoria | Indica se o resultado está relacionado às diretrizes e normas para a ação do poder público ou a processos que envolvam arranjos contratuais. Em outros termos, responde à pergunta "o que está sendo feito?" | "Aquisição e serviços" e "Políticas e normas" Formato | Indica a forma pela qual o poder público operacionalizou a ação ou processo. Em outros termos, responde à pergunta "como está sendo feito?". | "Comodato"; "Contratação direta"; "Doação"; "Parceria"; "Legislação"; "Outros" Tipo de publicação | Indica o meio pelo qual a ação ou processo ao qual o resultado se refere foi publicizado em diário oficial. Em outros termos, responde à pergunta "Como foi oficializado e/ou publicizado?". | "Ata"; "Comunicado"; "Contrato"; "Decreto"; "Deliberação"; "Despacho"; "Edital"; "Extrato"; "Instrução normativa"; "Lei"; "Portaria; "Regimento"; "Resolução"; "Termo"; "Veto"; "Outros" Nome/número | Nome e número da norma, em caso de políticas e normas, ou do documento, no caso de contratos, termos e processos administrativos. | NA (campo aberto) Contratada/parceira/ doadora | Nome de contratadas, parceiras ou doadoras atuando no fornecimento, desenvolvimento e/ou implantação de tecnologias, ou ainda na execução de iniciativas relacionadas. | NA (campo aberto) Fornecedora | Fornecedora do bem ou serviço quando diferente da contratada, parceira ou doadora. | NA (campo aberto) Observação | Comentários sobre o resultado, seja em relação a possíveis aprimoramentos na busca, seja em relação a casos de interesse para aprofundamento na análise. | NA (campo aberto) Resultado duplicado | Indica se o resultado apareceu relacionado anteriormente, em decorrência de duas razões: i) combinações diferentes de palavras-chave levaram às mesmas publicações nos diários oficiais; ii) publicações mais longas, como leis ou planos estratégicos, apresentavam as mesmas palavras-chave em trechos diferentes, mas distantes entre si, fazendo com que os resultados fossem compreendidos pelos robôs de busca como distintos. | "Sim" ou "Não'"

Se necessário, ajustes e alterações poderão ser feitos ao longo da evolução das análises.

okfn-brasil / observatorio-materiais