Open kkd opened 6 years ago
各自治体のサイトの情報をスクレイピングして、自動的に記事に落としたい。
とりあえずは、jekyllのpost形式(markdown)にする。 Jekyllについてはこちら参照のこと。
--- title: $(タイトル)(日付) category: - $(自治体名) tag: - 緊急速報 --- $(自治体)で公開された情報です。(オリジナルは[こちら](url)) $(本文)できればHTML->Markdown変換したものが入ると良い。
_post/
松山、愛南町は混ざっていて絞りずらいので後回し。。。
http://www.city.matsuyama.ehime.jp/allNewsList.html http://www.town.ainan.ehime.jp/kurashi/news-list.html
宇和島市を対象にしたスパイダーを作成しました。
https://github.com/bravotan/scrape-cheerup-ehime
ありがとうございます!!
markdownファイル名を一意にするのは、URLから「/」を「-」とかに変更するだけでいいかもしれないですね。https://host/category/sub/number/label.extとかなら、(prefix)-category-sub-number-label.mdみたいに。
各自治体のサイトの情報をスクレイピングして、自動的に記事に落としたい。
形式
とりあえずは、jekyllのpost形式(markdown)にする。 Jekyllについてはこちら参照のこと。
ファイルフォーマット
出力先
_post/
対象リスト
最優先
次点
松山、愛南町は混ざっていて絞りずらいので後回し。。。
http://www.city.matsuyama.ehime.jp/allNewsList.html http://www.town.ainan.ehime.jp/kurashi/news-list.html