josw123 / dart-fss

한국 금융감독원에서 운영하는 다트(Dart) 시스템 크롤링을 위한 라이브러리
https://github.com/josw123/dart-fss
MIT License
321 stars 110 forks source link

(크롤링, 엑셀연동, 데이터분석, 업무자동화용) 파이썬 공부방향 질문드립니다. [어떤 라이브러리를 추가로 공부하면 될지] #98

Closed cjsaudcjswo closed 2 years ago

cjsaudcjswo commented 2 years ago

(크롤링, 엑셀연동, 데이터분석, 업무자동화용) 파이썬 공부방향 질문드립니다. [어떤 라이브러리를 추가로 공부하면 될지]

안녕하세요. 귀중한 조언 감사드립니다.

파이썬 이제 막 기초를 끝낸 파이썬 초보입니다. 점프 투 파이썬이라는 책과 강의로

파이썬 기초서적을 3회독 점도 하였고,

별도로, pandas, numpy, matplotlib, 셀레니움 라이브러리를 공부했습니다.

(질문) 저는 전문 프로그래머나 개발자는 아니고, 별도의 업무와 투자를 하는 사람입니다.

제 업무나 주식, 부동산 자료분석에 활용하고자 파이썬이라는 도구를 활용하려는 것입니다.

● 주로, 방대한 인터넷 세계에서 제가 원하는 자료만을 크롤링해 올수 있는 방법으로 활용

● 그 크롤링한 자료들을

a. 제가 지정한 폴더에 한번에 다운로드 받거나 (에컨대, 이미지 파일들을 폴더에 대량으로 다운받거나)

b. 제가 원하는 크롤링한 내용들(글자 내용 등)을 엑셀에다가 일목요연하게 정리되게 출력해주는 식으로 (예컨대, 네이버 연관검색어를 쫙 모아서 엑셀에다가 정리해준다던지)

● 그렇게 크롤링되어 엑셀로 재정리된 그 자료를 데이터 분석도 하고, 그래프도 만들고, 통계도 만들고

아울러 ● 업무 자동화도 만들어나가는 식으로

파이썬을 활용해나갈 것을 염두에 두고 있습니다.

=================================== 결국, 크롤링, 엑셀연동, 데이터분석, 업무자동화용으로

파이썬을 활용하고자 합니다.

■ 파이썬 기초에 + 판다스, 셀레니움, 넘파이, matplotlib를 공부한 상태인데

크롤링, 엑셀연동, 데이터분석, 업무자동화용으로

파이썬을 활용하려면

어떤어떤 라이브러리(모듈)을

추가로 공부해나가야 하는지,

여기에 자주 사용하는 라이브러리(모듈)은 무엇무엇이 있는지

질문드립니다.

귀중한 답변 정말 감사드립니다. 오늘도 좋은 하루 되세요 ^^

josw123 commented 2 years ago

안녕하세요 ㅎㅎ

일단 해보고 싶으신 것이 있으면 먼저 시도해보시는 것을 추천드립니다. 어차피 데이터 크롤링 방법에 따라 사용되는 프로그램이 달라지기 때문에 일단 제작하면서 필요한 라이브러리를 찾아보시면 되겠습니다.

적어주신 라이브러리에 추가적으로 아래 라이브러리를 사용하시면 기본적인 제작에는 문제가 없으실 것입니다.

  1. requests: 셀레니움으로 대부분의 크롤링은 가능하나 무겁고, 크롬같은 브라우저가 필요하기 때문에 requests 등 기본적인 http 라이브러리를 주로 사용합니다. 만약 javascript로 인한 동작이 불가능한 경우 셀레니움을 사용하게 됩니다.
  2. fake-useragent: 크롤링시 일반적으로 user-agent 값을 체크하는 경우가 많이 있으므로 이를 해결하기 위해 사용합니다(물론 수동으로 지정해서 사용해도 문제 없습니다)
  3. beautifulsoup4: html 파싱을 위해 사용되는 라이브러리입니다. html을 분석하여 데이터를 추출할때 사용합니다.
  4. scipy: 수치해석, 필터, 통계 등 과학에 필요한 라이브러리로 통계처리등에 사용가능합니다.
  5. seaborn: 통계 관련 그래프 그리기에 최적화된 라이브러리입니다.

이외도 다양한 파이썬 라이브러리가 있으므로, 일단 프로그램 라이브러리를 작성하시다 필요한것이 있으면 검색해서 사용하시면 되겠습니다.