okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

migrar classificador de PHP para Python #30

Open JaTvoiRabotnik opened 7 years ago

JaTvoiRabotnik commented 7 years ago

Algoritmo do "classificador humano" esta em clean2.php, consiste de achar as assinaturas "TABLE topo_materia" e "DIV pagina", ficando apenas com o miolo da DIV,

$tabtopo = $xpath->query('//table[@class="topo_materia"]');
if (strlen(trim($tabtopo->item(0)->nodeValue))>100){
    $div = $xpath->query('//td//div[@id="pagina"]');
    if (strlen(trim($div->item(0)->nodeValue))>100) {
        print ".. div id-pagina..";
        $htm = $dom->saveXML($div->item(0));
    }
}

podemos já migrar esse código para Python.