cpdoc / dhbb

Dicionário Histórico Biográfico Brasileiro
Other
10 stars 2 forks source link

DHBB ideas para protótipo #7

Open arademaker opened 7 years ago

arademaker commented 7 years ago

@vcvpaiva:

artigo sobre Niemayer na interface nova do DHBB.

apesar de todo o cuidado com que as entradas do dhbb sao escritas tem muita coisa que fica deixando a desejar em termos de informacao. por exemplo:

¶ Sobre o biografado foi publicado Oscar Niemeyer , escrito pel o jornalista Marcos Sá Correia , em 1996 , 15º volume d a coleção Perfis do Rio . ¶ Também teve um documentário sobre sua vida e obra chamado A vida é um sopro .

nao diz quem fez o documentario, se 'e acessivel no youtube, sobre o livro nao diz onde comprar, se esta' em catalogo, essas coisas seriam muito boas de saber, nao? junto com as descricoes de lugares e de instituicoes, complementariam o dicionario muito bem, trazendo-o de verdade pro seculo 21.

como o marcos sa correia tem sua propria entrada (no DHBB ou) na wikipedia https://pt.wikipedia.org/wiki/Marcos_S%C3%A1_Corr%C3%AAa tb seria bom saber (criar interlinks).

a IBM e a Nuance podem ate fazer dinheiro com uma coisa dessas mostrando pra outras instituicoes de conservacao nacional como informacao historica de qualidade pode produzir lucro, se as lojinhas de museus forem informatizadas adequadamente. (my 2 cents como se diz por ai) digital humanities tb pode dar lucro.

arademaker commented 7 years ago
  1. OWN-PT-Named: um KB de lugares/locacoes, instituicoes, pessoas ligadas a DHBB, Wikipedia, nossos aboxes com suas URIs. construido a partir do texto do DHBB, e de outras kbs que nem freebase, yago, geonames, dbpedia, etc.

maneiras de consertar o DHBB-marcado, e.g. http://129.41.145.38/kb-extraction/article?db=dhbb&id=9770cbc0-325c-11e5-877e-038289562b7f o nome do sujeito esta' errado. o nome dele 'e joao henrique pimentel, nao joao Henrique!

  1. POS-tagging pra portugues que a gente possa consertar. se possivel modulo independente com interface de jogar uma sentenca receber a marcacao, alem de batch processing, 'e claro.

  2. Universal dependencies, consertaveis tb, grafos

  3. MWEs e seus tipos (rodar o mwetool no DHBB e ver o que da'?)

  4. modulo de mapping words in sentences to OWN-PT, com disambiguacao manual? volume usado dentro do DHBB 'e muito mais "livro" do que volume dimensional?

arademaker commented 7 years ago
  1. Nao precisamos ter um pre-processamento que inclua transformar abreviacoes que nem MG em Minas Gerais?
vcvpaiva commented 11 months ago

MWEs e seus tipos (rodar o mwetool no DHBB e ver o que da'?)

SIM!