gestaogovbr / Ro-dou

Gerador de DAGs no Apache Airflow para fazer clipping do Diário Oficial da União.
https://gestaogovbr.github.io/Ro-dou/
GNU General Public License v3.0
74 stars 19 forks source link

Resultados errados da pesquisa #76

Closed nickbuttner closed 7 months ago

nickbuttner commented 7 months ago

Buscando por termos como IRPJ e CSLL, não retornaram no dia seguinte resultado do dia 19/12 referente à "Solução de Consulta 306/2023", que possui "IRPJ" e "CSLL".

A pesquisa não retorna resultados exatos. Mesmo passando is_exact_search e force_rematch como true.

Preciso de termos como e-CAC, E-Social e @RFB. Mesmo alterando o método _normalize, não tenho o retorno exato. A busca ignora os especiais.

Preciso de resultados exatos mas não estou conseguindo. Fiz alterações no método _really_matched, mas sem sucesso. Poderias me dar um help, por favor?

augusto-herrmann commented 7 months ago

Olá, @nickbuttner.

Você chegou a pesquisar manualmente no Diário Oficial da União para verificar se realmente existe uma publicação com o termo utilizado naquela data, na seção informada? São 3 seções no D.O.U. e em alguns dias existem também edições extras. O Ro-DOU funciona em cima da própria pesquisa do D.O.U., por isso, para poder depurar qualquer possível divergência nos resultados, é necessário reproduzir uma pesquisa (link do resultado de pesquisa na Imprensa Nacional).

Exemplo: pesquisa por "IRPJ" no dia 19/12/2023, não retorna nenhum resultado. Logo, é esperado que o Ro-DOU também não irá retornar nenhum resultado.

edulauer commented 7 months ago

@nickbuttner Realizei os testes no Ro-DOU com os termos IRPJ, CSLL para o dia 19/12 e retornou um resultado para cada conforme a pesquisa da IN. Fiz um teste também para E-CAC para o dia 21/02/24 e o mesmo retornou vários resultados correspondentes. Pode anexar o YAML de configuração que você está utilizando?

augusto-herrmann commented 7 months ago

Tem razão, o link de pesquisa acima não tinha encontrado resultados por causa de um erro de digitação meu.

nickbuttner commented 7 months ago

@edulauer

O retorno de e-Social e e-financeira por exemplo, ele traz o resultados "financeira" e "social". Não consigo também retornar o "@RFB" exato, mesmo retornando a questão de especiais do método "_normalize".

Qual foi o YAML que tu usastes para retornar o resultado de 19/12?

Claro. Posso sim. Github não me permite anexar YAML, então coloquei em arquivo de texto mesmo. all_terms.txt

edulauer commented 7 months ago

@nickbuttner dag:

  id: basic_example
  description: DAG de teste
  search:
    terms:
    - IRPJ
    - CSLL
  report:
    emails:
      - destination@economia.gov.br
    subject: "Teste do Ro-dou"

Report: Resultados para: IRPJ DOU - Seção 1

SOLUÇÃO DE CONSULTA Nº 306, DE 8 DE DEZEMBRO DE 2023 SOLUÇÃO DE CONSULTA Nº 308, DE 15 DE DEZEMBRO DE 2023 Assunto: Imposto sobre a Renda de Pessoa Jurídica - IRPJ ... Pasep e da Cofins, decorrentes de decisões judiciais transitadas em julgado, devem ser tributados pelo IRPJ ... (RE) 1.063.187, em sede de repercussão geral, do qual foi fixada a tese do Tema nº 962, não incide IRPJ

19/12/2023

Resultados para: CSLL DOU - Seção 1

SOLUÇÃO DE CONSULTA Nº 306, DE 8 DE DEZEMBRO DE 2023 Assunto: Contribuição Social sobre o Lucro Líquido - CSLL RESULTADO AJUSTADO. ... da Cofins, decorrentes de decisões judiciais transitadas em julgado, devem ser tributados pelo pela CSLL ... (RE) 1.063.187, em sede de repercussão geral, do qual foi fixada a tese do Tema nº 962, não incide CSLL