Closed TzuHanLiang closed 3 weeks ago
首先,請確保你的系統上已經安裝了 Python。如果還沒有,請從 Python 官方網站下載並安裝 Python。
如果還沒有安裝 Visual Studio Code(VSCode),可以從 VSCode 官方網站下載並安裝。
在你的本地文件系統中,創建一個新的專案目錄。例如:
mkdir legislative_project
cd legislative_project
在專案目錄中,創建一個虛擬環境來管理依賴包:
python -m venv venv
激活虛擬環境:
venv\Scripts\activate
source venv/bin/activate
在虛擬環境激活的狀態下,安裝 Scrapy、BeautifulSoup 和 Requests:
pip install scrapy beautifulsoup4 requests
在 VSCode 中打開剛剛創建的專案目錄。可以使用以下命令:
code .
這將在 VSCode 中打開當前目錄。
確保 VSCode 使用你剛剛創建的虛擬環境:
Python: Select Interpreter
,然後選擇你剛剛創建的虛擬環境。
在專案目錄中創建一個新的 Python 文件(例如 test_scraper.py
),並撰寫簡單的測試爬蟲腳本:
import requests
from bs4 import BeautifulSoup
def fetch_example():
url = 'https://mermer.cc'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.text)
else:
print(f"Failed to fetch {url}")
if __name__ == "__main__":
fetch_example()
在 VSCode 中打開終端(Ctrl+或 Cmd+
),然後運行測試爬蟲腳本:
python test_scraper.py
這將會在終端中打印出目標網站的標題,如果一切配置正確,應該會看到網站的標題被成功打印出來。
確認可以成功抓取網站內容並打印到控制台,這說明你的開發環境已經正確配置。
這些步驟涵蓋了設置開發環境、安裝必要工具和庫以及在 VSCode 中建立和運行專案的過程。可以確保能夠在本地開發和測試爬蟲腳本。
took 1hr done
實作目標:
設置開發環境,安裝必要的工具和庫,確保能夠開始爬取和處理數據。
方法:
安裝 Python 和相關開發工具(如 VSCode 或 PyCharm)。 安裝所需的 Python 庫,如 Scrapy、BeautifulSoup、Requests 等。 確認開發環境能夠正常運行簡單的爬蟲腳本。
驗證:
運行一個簡單的爬蟲腳本,確認可以成功抓取某個網站的內容並打印到控制台。