gberger / PES-3

MIT License
0 stars 3 forks source link

Extração de Dados do PDF #1

Open gberger opened 8 years ago

gberger commented 8 years ago
HugoLnx commented 8 years ago

Já estamos convertendo o PDF tem texto, agora faltaria tentar achar os dados no texto, alguns são tranquilos, como abstract e email dos autores, mas tem outros mais tensos que não sei se vai dar pra a gente brincar com isso. Tipo nome dos autores, titulo do paper, conferência, etc

gberger commented 8 years ago

O título costuma ser a primeira coisa, e os nomes a segunda

HugoLnx commented 8 years ago

Sim, mas o texto não vem formatado qnd extraído do pdf haha Ainda mais que dependendo do paper a formatação é bem diferente, alguns têm o nome da conferência junto, alguns têm a Universidade dos autores e até o endereço da Universidade. As vezes os dados dos autores são separados em colunas, outros não. Aew teria que ver esses casos, é possível, mas acho que não será tão banal quanto parece On 2 Jun 2016 11:30, "Guilherme Berger" notifications@github.com wrote:

O título costuma ser a primeira coisa, e os nomes a segunda

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/gberger/PES-3/issues/1#issuecomment-223309411, or mute the thread https://github.com/notifications/unsubscribe/AAHzlbZcaM3rdBWDQU-q6lbUyYhky6jUks5qHujvgaJpZM4IiL9t .

gberger commented 8 years ago

basta a rota de enviar o PDF que eu faço um JS maroto não se preocupa com o envio duplo não. Não precisa salvar o PDF. Só extrai o texto e devolve

input file on change ->
  envia PDF
  joga a resposta numa div no lado
  divido as palavras em span
  clica na primeira e na ultima palavra do titulo -> bota no input
  faz o mesmo pra autores e abstract
HugoLnx commented 8 years ago

Boa! Já implementei a rota. Para pegar o texto basta mandar o pdf para /documents/read A resposta terá o formato:

{"raw" : "<texto lido do pdf>"}

Estava pensando no futuro de ter outras chaves com informações mais mastigadas, tipo titulo, autores, etc.

gberger commented 8 years ago

Cool, deixa que eu faço o modal depois