otaniteruaki / menta_python

0 stars 0 forks source link

スクレイピング について #3

Open otaniteruaki opened 3 years ago

otaniteruaki commented 3 years ago

スクレイピング 全体像

スクレイピング とは

webサイトを自動で操作すること

使用するライブラリ

1)selenium:ブラウザの自動化 ・webブラウザを自動操作する ・低速 ・ほぼどんな操作でもできる

2)requests:HTTPライブラリ(URLを指定してHTMLを取得) ・webブラウザなしでwebアクセスする ・高速 ・できることに制限がある ・基本的にデータ取得のみ

3)BeautifulSoup:HTMLパース

seleniumの使い方

インストール

pip install selenium  →プロジェクト毎に仮想環境を立てて、そこに入れるべき ・バージョンにあったchromedriverをダウンロード  →chrome://version で調べられる  →自動でダウンロードする仕組みがあるが、この裏側は理解しておくべき

driver(class)

・webブラウザを自動操作するツール ・webブラウザ毎にdriverファイルが異なる  └chrome:chromedriver←多くの顧客で使われている  └Firefox:geckdriver ・メソッド  └gert(url):URLにアクセス  └find_element*:DOM要素を取得  └get_attribute(属性):DOM要素の属性の値を取得  └quit():画面を閉じる