SUSYUSTC / MathTranslate

translate scientific papers in latex, especially arxiv papers
https://github.com/SUSYUSTC/MathTranslate
Apache License 2.0
1.04k stars 69 forks source link

想问一下这个项目和nougat的匹配程度怎么样 #87

Open hxypqr opened 8 months ago

hxypqr commented 8 months ago

nougat复读蛮严重的,这个项目有做一些后验的处理去除掉nougat输出的源文件的复读部分和一些latex公式错误的部分吗

SUSYUSTC commented 8 months ago

目前我们是一个从latex原始文件出发翻译的项目,nougat据我所知应该是一个类似于ocr的工具,可能这两个结合起来会很有意思,但目前我没什么时间做这个

hxypqr commented 7 months ago

nougat可以用来保留图片,我不确定您这里是如何保留图片的

SUSYUSTC commented 7 months ago

我目前对nougat具体能做什么暂时不是特别了解,保留图片我们这应该不太行

sherrylixuecheng commented 6 days ago

我目前对nougat具体能做什么暂时不是特别了解,保留图片我们这应该不太行

我感觉咱们应该可以弄哎!我看了他们的论文,其实他们代码开源了(Meta比我司在这方面良心好多啊啊啊!)我们其实写个接口就行。而且我感觉科研上也很有遐想的空间。https://www.arxiv.org/abs/2408.06292 我在想也许还能接上AI scientist。但目前我没看到他们的代码

sherrylixuecheng commented 6 days ago

nougat复读蛮严重的,这个项目有做一些后验的处理去除掉nougat输出的源文件的复读部分和一些latex公式错误的部分吗

感谢亲的建议!抱歉才看到这个讨论。我自己不是做NLP的,所以之前没有留意到Meta这个工作。。MT这个项目目前代码其实没有AI flavor,也不是一个NLP的项目,只是给Latex然后去根据key word detect command,纯工程。亲提到的后验,精巧的可能不太好做到(可以detect如果连续重复4次以上可以keep一次的,这类的)。nougat的复读原因是transformer的问题,如果想更clever的解决复读,我想如果有solution那不如直接弄进transformer block里面更有价值,而非在我们这边 (我看原论文用了augmentation)。nougat本身跟我们还蛮适配的~而且可能科研角度也会有些有趣的点,比如训多语言的文本也许能帮助nougat降低repetition的频率等等。。但我们两个平时科研工作实在是太忙了:(