KL-Divergence / Big_Contest_2024

생성형AI분야
0 stars 0 forks source link

[info] 크롤링 구조_네이버 랩 #9

Open tldbs5026 opened 6 days ago

tldbs5026 commented 6 days ago

기능 설명

현재 datalab관련해서 크롤링하기 위해 다음과 같은 구조를 파악하고있습니다.

상위 class는 //*[@id="app-root"]/div/div/div/div[6] 로 동일하였고, 이는 div style='min-height:calc~~~'로 구성되어있었습니다.(사진1첨부) image

그리고 그 안의 datalab의 정보는 div class가 place_section l_y6k로 되어있는것까지 확인했습니다.(사진 2) image .

추가적으로 그 안의 div class는 class="place_section_content"이었으며, 두개의 div를 거친 후 ul을 확인하였으며,(사진3) image

다음으로 나오는 li는 class="nc5wr"이며, 다음과 같이 나타납니다.(사진4) image

마지막으로 두 개의 span[1],span[2]가 존재하는데, 여기에서 span[1]은 class="pNnVF"이며, 칼럼으로 사용할 수 있는 키워드를 나타내고(분위기, 인기토픽, 찾는목적)(사진5) image

span[2]는 class="sJgQj"이며, 그 안의 span이[1~5]까지 존재하여 해당 키워드를 수식하는 단어로 확인할 수 있었습니다.(사진6)

기대 동작

이 부분은 class를 바탕으로 살펴본 결과 datalab이 존재한다면 공통적으로 나타나고 있음을 확인하였습니다. 따라서 이부분을 유념하여 진행하면 datalab 항목이 존재하면 크롤링이 가능할 것으로 예상됩니다.

대안

아직 생각중

추가 정보

사진에 대해서는 추가적으로 분석한 후에 올리겠습니다.

chanwoomoon commented 6 days ago

저 같은 경우에는 분위기 , 인기토픽, 찾는 목적의 XPATH의 경우 //[@id="app-root"]/div/div/div/div[6]/div/div[9]/div[1]/div[1]/div/ul/li[{i}]/span[1] (i= 1,2,3 // 분위기 , 인기토픽, 찾는 목적) 안의 값들은 //[@id="app-root"]/div/div/div/div[6]/div/div[9]/div[1]/div[1]/div/ul/li[{i}]/span[2] (i= 1,2,3 // 분위기 , 인기토픽, 찾는 목적) 로 XPATH가 일정해서 crl 이런식 key, value로 받아서 딕셔너리 형태로 작성했습니다.

CSS_Selector를 사용하면 시윤님이 하신 것 처럼 해도 될 것 같습니다

tldbs5026 commented 6 days ago

datalab의 경우 xpath로 찾되, 위치가 바뀐 경우에는 class명으로 찾도록 하니까 진행되었습니다. 추가적으로 코드를 다듬고 공유해드리겠습니다.일단 결과는 이렇게 수집되는걸 확인했습니다. image