cheerup-ehime / cheerup-ehime.github.io

jekyll site for this organization
MIT License
7 stars 5 forks source link

自治体のサイトにある情報をスクレイピングして記事にしたい #8

Open kkd opened 6 years ago

kkd commented 6 years ago

各自治体のサイトの情報をスクレイピングして、自動的に記事に落としたい。

形式

とりあえずは、jekyllのpost形式(markdown)にする。 Jekyllについてはこちら参照のこと。

ファイルフォーマット

---
title: $(タイトル)(日付)
category:
  - $(自治体名)
tag:
  - 緊急速報
---
$(自治体)で公開された情報です。(オリジナルは[こちら](url))

$(本文)できればHTML->Markdown変換したものが入ると良い。

出力先

_post/

対象リスト

最優先

次点

松山、愛南町は混ざっていて絞りずらいので後回し。。。

http://www.city.matsuyama.ehime.jp/allNewsList.html http://www.town.ainan.ehime.jp/kurashi/news-list.html

bravotan commented 6 years ago

宇和島市を対象にしたスパイダーを作成しました。

https://github.com/bravotan/scrape-cheerup-ehime

kkd commented 6 years ago

ありがとうございます!!

bravotan commented 6 years ago

markdownファイル名を一意にするのは、URLから「/」を「-」とかに変更するだけでいいかもしれないですね。https://host/category/sub/number/label.extとかなら、(prefix)-category-sub-number-label.mdみたいに