SWM-Thlee / linked-paper-front

Linked Paper 웹 페이지
https://linked-paper.com
MIT License
0 stars 0 forks source link

[BUG] 검색 결과 응답 내 비정형적인 Author 정보 존재 #25

Closed cutehammond772 closed 1 month ago

cutehammond772 commented 1 month ago

개요

예시

GriddlyJS: A Web IDE for Reinforcement Learning

"Tim Rockt\\"aschel" -> "Tim Rocktäschel"로 표기되어야 합니다.

"authors": [
                "Christopher Bamford",
                "Minqi Jiang",
                "Mikayel Samvelyan",
                "Tim Rockt\\\"aschel"
            ],

Maia-2: A Unified Model for Human-AI Alignment in Chess

다른 저자 정보는 제대로 출력되나, 중간에 comma로 구분하여 한 문자열에 두 저자가 동시에 존재하는 경우도 있습니다.

"authors": [
                "Zhenwei Tang",
                "Difan Jiao",
                "Reid McIlroy-Young",
                "Jon Kleinberg,\n  Siddhartha Sen",
                "Ashton Anderson"
            ],

Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural\n Framework for AI Safety with Challenges and Mitigations

다른 저자 정보는 제대로 출력되나, 마지막에 "and D"와 같은 형식으로 정보가 출력됩니다.

"authors": [
                "Chen Chen",
                "Ziyao Liu",
                "Weifeng Jiang",
                "Goh Si Qi",
                "and KwoK-Yan Lam"
            ],

Towards Autonomous Satellite Communications: An AI-based Framework to\n Address System-level Challenges

제목 내 \n과 같은 Escape Sequence의 경우 FE 내에서 자동으로 처리되는 모양새입니다. 저자가 별도로 존재하지 않고, and로 구분하여 하나의 문자열로 표기되고 있습니다.

"authors": [
                "Juan Jose Garau-Luis and Skylar Eiskowitz and Nils Pachler and Edward\n  Crawley and Bruce Cameron"
            ],

Trustworthy and Responsible AI for Human-Centric Autonomous\n Decision-Making Systems

저자 정보란에 저자의 이름과 해당 저자의 학적 정보가 병기된 형태로 파악됩니다. 일반적으로 split하는 것은 불가능하며, 다른 방법을 찾을 필요가 있습니다.

특정 방식(oai_dc)으로 불러오는 경우 저자의 정보가 제대로 반영됩니다. 다른 방식으로 재인덱싱을 수행하거나, FE에서 별도로 추가 옵션을 제공할 수도 있습니다.

예를 들면, "데이터가 제대로 나오지 않나요? -> 다른 방법으로 저자 불러오기"와 같은 플로우로 FE에서 직접 arXiv API를 호출하여 받는 식이 있을 것 같습니다.

"authors": [
                "Farzaneh Dehghani (1)",
                "Mahsa Dibaji (2)",
                "Fahim Anzum (3)",
                "Lily Dey\n  (3)",
                "Alican Basdemir (4)",
                "Sayeh Bayat (1,5)",
                "Jean-Christophe Boucher (6),\n  Steve Drew (2)",
                "Sarah Elaine Eaton (7)",
                "Richard Frayne (8)",
                "Gouri Ginde (2),\n  Ashley Harris (8)",
                "Yani Ioannou (2)",
                "Catherine Lebel (8)",
                "John Lysack (8),\n  Leslie Salgado Arzuaga (9)",
                "Emma Stanley (1)",
                "Roberto Souza (2)",
                "Ronnie Souza\n  (2)",
                "Lana Wells (10)",
                "Tyler Williamson (11)",
                "Matthias Wilms (8)",
                "Zaman Wahid\n  (3)",
                "Mark Ungrin (12)",
                "Marina Gavrilova (3)",
                "Mariana Bento (1,2) ((1)\n  Department of Biomedical Engineering",
                "University of Calgary",
                "Calgary",
                "Canada,\n  (2) Department of Electrical and Software Engineering",
                "University of Calgary,\n  Calgary",
                "Canada",
                "(3) Department of Computer Science",
                "University of Calgary,\n  Calgary",
                "Canada",
                "(4) Department of Philosophy",
                "University of Calgary,\n  Calgary",
                "Canada",
                "(5) Department of Geomatics Engineering",
                "University of\n  Calgary",
                "Calgary",
                "Canada",
                "(6) Department of Political Science",
                "University of\n  Calgary",
                "Calgary",
                "Canada",
                "(7) Werklund School of Education",
                "Specialization,\n  Leadership",
                "University of Calgary",
                "Calgary",
                "Canada",
                "(8) Cumming School of\n  Medicine",
                "Department of Radiology",
                "University of Calgary",
                "Calgary",
                "Canada,\n  (9) Department of Communication",
                "Media",
                "and Film",
                "University of Calgary,\n  Calgary",
                "Canada",
                "(10) Faculty of Social Work",
                "University of Calgary",
                "Calgary,\n  Canada",
                "(11) Centre for Health Informatics",
                "University of Calgary",
                "Calgary,\n  Canada",
                "(12) Faculty of Veterinary Medicine",
                "University of Calgary",
                "Calgary,\n  Canada)"
            ],
ljy2855 commented 1 month ago

title, abstraction,authors sanitize 모듈 구현하면서 이부분 계속 고민중에 있어요. 기본적으로 초기 데이터가

"authors": "Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin\n  Liu, Jinzheng He, Xiang Yin, Zhou Zhao",

이런식으로 text형태로 제공되어, 간단히 분리하는 로직을 작성중이에요.

  1. , 로 구분
  2. \n 로 구분
  3. and로 구분
  4. latex 형태 구분
String sanitizedAuthors =
        meta.getAuthors()
            .replace("\n", " ") // 행넘김 문자 제거
            .replaceAll("\\s+", " ") // 다중 공백을 하나로 치환
            .replace("\\'", "'") // LaTeX 스타일의 이스케이프 문자 처리
            .replace("\\\"", "\"") // LaTeX 스타일의 이중 따옴표 처리
            .replace(" and ", ", "); // 'and'를 ','로 변경

일단 이렇게 구현하니 어느정도 구분이 되는 것 같아요.


추가 논의 사항

실제 논문의 메타데이터에서 authors 보다 1저자 혹은 submitter가 중요하게 보여질 수 있을 것 같은데 어떻게 보시나요?

"authors": "Jiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin\n  Liu, Jinzheng He, Xiang Yin, Zhou Zhao",
"categories": "cs.SD cs.AI eess.AS",
"comments": null,
"license": "http://creativecommons.org/licenses/by/4.0/",
"submitter": "Jiawei Huang"
image
cutehammond772 commented 1 month ago

@ljy2855 이슈 빠르게 반영해주셔서 감사드립니다!

일단 submitter에 대해서 제 의견을 말씀드리겠습니다.

  1. 대리 제출: 저자들 중 논문 작성에 큰 기여를 했지만 투고 절차를 직접 진행하지 않는 경우가 있습니다. 연구팀이나 기관 내에서 관리자가 대리로 논문을 제출하는 경우도 있습니다. 이 경우 submitter는 연구에 기여했지만, 작성에 직접 참여하지는 않았을 수 있습니다.
  2. 행정적 역할: 일부 기관이나 연구 단체에서는 교수나 연구 책임자가 아닌 행정 직원이나 연구 조정자가 논문을 대신 제출하기도 합니다. 이들은 투고 과정에서 submitter로 등록될 수 있지만, 실제 논문 작성에 기여하지 않았을 수 있습니다.
  3. 학생 논문: 학생이 논문 작성의 주된 역할을 맡았지만, 지도교수나 상위 연구원이 submitter로 등록되는 경우가 있습니다. 이는 투고 절차를 더 원활하게 진행하거나 연구 팀의 결정에 따라 이루어질 수 있습니다.
  4. 협업 연구: 다수의 저자가 포함된 협업 연구의 경우, 모든 저자가 논문 작성에 동일하게 기여하지 않을 수 있으며, 특정 저자 중 한 명이 대표로 submitter 역할을 맡게 될 수 있습니다. 이 경우 submitter가 반드시 가장 기여도가 큰 사람을 의미하지는 않습니다.