Open otaniteruaki opened 3 years ago
webサイトを自動で操作すること
1)selenium:ブラウザの自動化 ・webブラウザを自動操作する ・低速 ・ほぼどんな操作でもできる
2)requests:HTTPライブラリ(URLを指定してHTMLを取得) ・webブラウザなしでwebアクセスする ・高速 ・できることに制限がある ・基本的にデータ取得のみ
3)BeautifulSoup:HTMLパース
・ pip install selenium →プロジェクト毎に仮想環境を立てて、そこに入れるべき ・バージョンにあったchromedriverをダウンロード →chrome://version で調べられる →自動でダウンロードする仕組みがあるが、この裏側は理解しておくべき
pip install selenium
・webブラウザを自動操作するツール ・webブラウザ毎にdriverファイルが異なる └chrome:chromedriver←多くの顧客で使われている └Firefox:geckdriver ・メソッド └gert(url):URLにアクセス └find_element*:DOM要素を取得 └get_attribute(属性):DOM要素の属性の値を取得 └quit():画面を閉じる
スクレイピング 全体像
スクレイピング とは
webサイトを自動で操作すること
使用するライブラリ
1)selenium:ブラウザの自動化 ・webブラウザを自動操作する ・低速 ・ほぼどんな操作でもできる
2)requests:HTTPライブラリ(URLを指定してHTMLを取得) ・webブラウザなしでwebアクセスする ・高速 ・できることに制限がある ・基本的にデータ取得のみ
3)BeautifulSoup:HTMLパース
seleniumの使い方
インストール
・
pip install selenium
→プロジェクト毎に仮想環境を立てて、そこに入れるべき ・バージョンにあったchromedriverをダウンロード →chrome://version で調べられる →自動でダウンロードする仕組みがあるが、この裏側は理解しておくべきdriver(class)
・webブラウザを自動操作するツール ・webブラウザ毎にdriverファイルが異なる └chrome:chromedriver←多くの顧客で使われている └Firefox:geckdriver ・メソッド └gert(url):URLにアクセス └find_element*:DOM要素を取得 └get_attribute(属性):DOM要素の属性の値を取得 └quit():画面を閉じる