Algoritmo do "classificador humano" esta em clean2.php, consiste de achar as assinaturas "TABLE topo_materia" e "DIV pagina", ficando apenas com o miolo da DIV,
$tabtopo = $xpath->query('//table[@class="topo_materia"]');
if (strlen(trim($tabtopo->item(0)->nodeValue))>100){
$div = $xpath->query('//td//div[@id="pagina"]');
if (strlen(trim($div->item(0)->nodeValue))>100) {
print ".. div id-pagina..";
$htm = $dom->saveXML($div->item(0));
}
}
Algoritmo do "classificador humano" esta em clean2.php, consiste de achar as assinaturas "TABLE topo_materia" e "DIV pagina", ficando apenas com o miolo da DIV,
podemos já migrar esse código para Python.