scieloorg / kernel

É o componente central da nova arquitetura de sistemas de informação da Metodologia SciELO, ainda em fase de desenvolvimento.
https://docs.google.com/document/d/14YBl7--4ouaWBQhxzUYWRuhmegwnSYrDgupsED6rhvM/edit?usp=sharing
BSD 2-Clause "Simplified" License
6 stars 11 forks source link

MathML e LaTeX nos metadados do front-matter são perdidos no retorno do endpoint /front #228

Open gustavofonseca opened 3 years ago

gustavofonseca commented 3 years ago

Conteúdos codificados em MathML ou LaTeX em elementos do front-matter do XML, como por exemplo no título, subtítulo ou resumo, são removidos da estrutura JSON retornada pelo endpoint /front.

Fragmento do XML SciELO PS

<!-- https://kernel.scielo.br/documents/JHVKpRBtgd47h5F6YDz6mSm -->
<title-group>
  <article-title>Uma Reflexão de Professores sobre Demonstrações Relativas à Irracionalidade de <inline-formula><mml:math display="inline" id="m1"><mml:mrow><mml:msqrt><mml:mn>2</mml:mn></mml:msqrt></mml:mrow></mml:math></inline-formula> </article-title>
  <trans-title-group xml:lang="en">
    <trans-title>Teachers' Considerations on the Irrationality Proof of <inline-formula><mml:math display="inline" id="m2"><mml:mrow><mml:msqrt><mml:mn>2</mml:mn></mml:msqrt></mml:mrow></mml:math></inline-formula> </trans-title>
  </trans-title-group>
</title-group>

Fragmento dos metadados retornados pelo endpoint /front

# https://kernel.scielo.br/documents/JHVKpRBtgd47h5F6YDz6mSm/front
"article_title": [
  "Uma Reflexão de Professores sobre Demonstrações Relativas à Irracionalidade de 2"
]

Solução

Qual a melhor maneira de representar conteúdos codificados em MathML ou LaTeX em JSON? Penso que a maneira mais prática neste momento é embutir o código original no JSON, mesmo que isso cause algum estranhamento. Alguma idéia sobre isso?

robertatakenaka commented 3 years ago

@gustavofonseca /front é proveniente da base ISIS. Então não contém este dado foramtado.

gustavofonseca commented 3 years ago

Na realidade o /front vem da lib clea, que extrai metadados do XML sem formatação. Acho que o que o motivo apresentado por você está relacionado aos xmls sintetizados, que perderão essas formatações.

-Gustavo

Em Seg 12 abr. 2021, às 14:43, Roberta Takenaka escreveu:

@gustavofonseca https://github.com/gustavofonseca /front é proveniente da base ISIS. Então não contém este dado foramtado.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/scieloorg/kernel/issues/228#issuecomment-818001740, or unsubscribe https://github.com/notifications/unsubscribe-auth/AABHMN3JG73WSKQOKOE5SV3TIMWNVANCNFSM4XO2QEIQ.