IO-Lab2 / Scraper

Scraper for obtaining data from websites
0 stars 0 forks source link

Zescrape'ować bazę wiedzy SGGW i wrzucić informacje do tabel bazy #2

Open Nixx-K opened 3 weeks ago

Nixx-K commented 6 days ago

@KluskaGit Nie musisz scrapować SNIPu ani CiteScore widocznych w profilach. Co do h-indexów, potrzebujemy obu, WoS oraz Scopus. Zaraz oba pola zostaną dodane do bazy danych.

Nixx-K commented 5 days ago

@KluskaGit Co do publikacji, uważam, że do tabeli publications łatwiej będzie Ci scrapować stąd: https://bw.sggw.edu.pl/globalResultList.seam?r=publication&tab=PUBLICATION&lang=pl, a do tabeli scientists z profilu danego naukowca.

KluskaGit commented 5 days ago

@KluskaGit Co do publikacji, uważam, że do tabeli publications łatwiej będzie Ci scrapować stąd: https://bw.sggw.edu.pl/globalResultList.seam?r=publication&tab=PUBLICATION&lang=pl, a do tabeli scientists z profilu danego naukowca.

Tabela scientists nie ma publikacji i wydaje mi się, że nie ma sensu scrapować z dwóch różnych źródeł tych samych informacji

Nixx-K commented 3 days ago

W takim razie uważam, że najłatwiej będzie Ci scrapować stąd: https://bw.sggw.edu.pl/globalResultList.seam?r=publication&tab=PUBLICATION&lang=pl.

KluskaGit commented 1 day ago

Na ten moment scraper jest w stanie pobrać prawie wszystkie informacje. Problem jest z tym, że muszę dostosować odpowiednią ilość requestów i opóźnienia bo inaczej dostanę error 500. Dodatkowo w profilu naukowca ministerial score jest generowany w inny sposób i nie zawsze jest pobierany. Dzisiaj powinienem dodać kilkuset naukowców z bibliometrią aby cokolwiek było w bazie i będę próbował ogarnąć resztę tabel w bazie aby coś zawierały. Też muszę się zastanowić nad schematem pobierania danych aby nie przeciążyć serwerów, gdyż ilość danych jest duża

Nixx-K commented 1 day ago

Dziękuję!