taetaetae / blog-comment

0 stars 0 forks source link

posts/public-offering-notice-3/ #28

Open utterances-bot opened 3 years ago

utterances-bot commented 3 years ago

공모주 알리미 개발 후기 - 3부 - 👨‍💻꿈꾸는 태태태의 공간

https://taetaetae.github.io/posts/public-offering-notice-3/

stevepaks commented 3 years ago

타임아웃은 ACL이 이슈였던건 아니었을까요?? 크롤링 하는 서버쪽에서의 inbound ACL 설정을 확인해보면 도움이 될 것 같기도 합니다.

taetaetae commented 3 years ago

네 그래서 traceroute 같은 명령어를 사용해보고 싶었는데 console 에서는 없는 명령어라며 동작도 안하고 ㅎㅎ... 이것저것 찾아보는데 안나와서 그냥 타임아웃이라고 단정지었네요 ㅠ (다른 국내 사이트 (네이버 등) 들은 잘 되길래 뭔가 타겟 서버의 문제같기도 하고요 ㅎㅎ;)

stevepaks commented 3 years ago

앗 저는 크롤링 하는 서버를 별도로 운영하시는 것으로 이해했네요... 즉 heroku(client) -> 크롤링 서버(server) 로요;; 그나저나 캡처상의 URL이 google은 API이고, 38.xxx/../index.htm 정적 페이지이네요.

taetaetae commented 3 years ago

네, 결국 heroku 서버에서 직접 해당 사이트를 접근 하는 식으로 구성 했었습니다 :D

포스팅 할때는 뭔가 범용적이게 되야 할것 같아서 네이버가 아닌 구글페이지로 했네요 ㅎㅎ; (구글이나 네이버나 똑같이 응답이 잘 와서요~) 그리고 google.com 이 API 라는 말씀이 이해가 잘 안가네요 ㅎㅎ.. 결국 html 페이지를 보여주는걸로 알고 있어서요.

content-type: text/html; charset=UTF-8

그리고 크롤링 대상 페이지가 아닌 해당 도메인으로 curl http://www.38.co.kr 로 해도 동일하게 타임아웃이 발생하네요 ㅠㅠ 정적페이지던 아니던 어쨌든 해당 서버로의 접근 자체가 안되기에 (Connection timed out) heroku 를 사용하기 어렵다 판단하게 되었습니다 :D

curl: (28) Failed to connect to www.38.co.kr port 80: Connection timed out

관심 가져주셔서 감사해요!

stevepaks commented 3 years ago

넵. 제가 차이가 URL에 차이가 있다고 말씀드린 이유는 내부적으로 아래처럼 동작했을 것 같아서였습니다. google의 경우 웹서버가 적절한 resource로 redirect(URI를 index.html이라고 직접 명시하지 않았기 때문에)해서 응답이 html으로 오는 것이고(확인해보니 301로 redirect이네요), www.38.co.kr/../index.htm의 경우 index.htm으로 직접 접근하는 것이어서 혹시 접근이 안되는 것 아닌가 했습니다.

stevepaks commented 3 years ago

글고 curl http://www.38.co.kr 는 scheme이 http이네요. https://www.38.co.kr로 해도 같은 결과일까요?

taetaetae commented 3 years ago

heroku > console 에서 테스트 해본 결과 입니다 ^^

taetaetae commented 3 years ago

비슷한(?) url 이 있어 테스트 해보니

curl http://www.ipo38.co.kr/ipo/index.htm?key=6 > 정상 html 출력

www.38.co.kr 서버의 문제 같아 보입니다 ^^;;

stevepaks commented 3 years ago

앗. 그렇군요;; heroku의 Region이 유럽과 US밖에 없는 것으로 봐서는 38쪽에서 특정 IP 범위만 접근허용을 하고 있는 것 아닌가 생각되네요. 괜한 피드백으로 시간뺏어서 죄송합니다.

taetaetae commented 3 years ago

아닙니다 ^^; 의견 주셔서 저야 감사하죠~ ipo38 도 이렇게 보다보니 알게됬는걸요 ㅎㅎ.. 진즉 저 도메인을 알았더라면 gcp 로 안가고 heroku로도 충분히 해결할 수 있었을것 같단 생각도 드네요~

여러가지로 감사드립니다 :D