g0v / twangry

政誌 - Angry event made in Taiwan.
http://fact.g0v.tw
Do What The F*ck You Want To Public License
51 stars 25 forks source link

苦勞網既有的事件清單 #28

Closed jimyhuang closed 11 years ago

jimyhuang commented 11 years ago

他們命名有個規則...

2007 http://goo.gl/rNZhnH 2008 http://goo.gl/j6a0JG 2009 http://goo.gl/iQf9i2 2010 http://goo.gl/QSmKuc 2011 http://goo.gl/MIPEBk 2012 http://goo.gl/PBWQw5 2013 http://goo.gl/HS3BpY

目前想法是,或許是把這幾頁的事件名稱爬下來,然後再來看怎麼編進去年表內~ 「怎麼編進去」目前是沒個定案..

ttcat commented 11 years ago

(這裡有過期嗎?)

苦勞網的 tag 規則很嚴謹,內部資料、新聞事件的紀錄都用內部 wiki 架設 「怎麼編進去」是不是直接爬每個事件的 rss?

jimyhuang commented 11 years ago

tag爬下來沒問題,但是tag不盡然有wiki的條目~這得人眼、肉眼對應... Orz

ttcat commented 11 years ago

Google 搜尋 site:zh.wikipedia.org + { 去掉年份的 tag } 然後取第一則

這樣規則有可能嗎?

https://www.google.com/search?safe=off&q=site%3Azh.wikipedia.org+%E5%B9%B4%E9%87%91%E6%94%B9%E9%9D%A9&oq=site%3Azh.wikipedia.org+%E5%B9%B4%E9%87%91%E6%94%B9%E9%9D%A9&gs_l=serp.3...1952.2774.0.4091.4.4.0.0.0.0.48.149.4.4.0....0...1c.1.23.serp..4.0.0.ALLKZbbQlVA

https://www.google.com/search?safe=off&q=site%3Azh.wikipedia.org+反媒體壟斷運動的文章&oq=site%3Azh.wikipedia.org+反媒體壟斷運動的文章&gs_l=serp.3...27884.32352.0.32638.10.10.0.0.0.0.63.400.10.10.0....0...1c.1j2.23.serp..10.0.0.c1ywY78CTFEhttps://www.google.com/search?safe=off&q=site%3Azh.wikipedia.org+%E5%8F%8D%E5%AA%92%E9%AB%94%E5%A3%9F%E6%96%B7%E9%81%8B%E5%8B%95%E7%9A%84%E6%96%87%E7%AB%A0&oq=site%3Azh.wikipedia.org+%E5%8F%8D%E5%AA%92%E9%AB%94%E5%A3%9F%E6%96%B7%E9%81%8B%E5%8B%95%E7%9A%84%E6%96%87%E7%AB%A0&gs_l=serp.3...27884.32352.0.32638.10.10.0.0.0.0.63.400.10.10.0....0...1c.1j2.23.serp..10.0.0.c1ywY78CTFE

2013/8/6 Jimmy Huang notifications@github.com

tag爬下來沒問題,但是tag不盡然有wiki的條目~這得人眼、肉眼對應... Orz

— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22125725 .

吳銘軒

專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573

jimyhuang commented 11 years ago

good idea. ttcat要不要 file_get_contents + file_get_contents 一下 XD

ttcat commented 11 years ago

目前我只會用 phpQuery 爬東西誒,這樣合格嗎? XD

On Tue, Aug 6, 2013 at 12:15 PM, Jimmy Huang notifications@github.comwrote:

good idea. ttcat要不要 file_get_contents + file_get_contents 一下 XD

— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22157424 .

吳銘軒

專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573

jimyhuang commented 11 years ago

套句clkao大的slide don't ask permission, ask forgiveness XD

抓來的話,可以先存在index.coolloud.org.tw.json ,格式可先參照這個,到時再來看怎麼跟google doc整併 http://angry.g0v.tw/index.json

jimyhuang commented 11 years ago

對了,寫php-cli應該就ok了吧?

ttcat commented 11 years ago

原諒我,我也不會 php-cli lol

On Tue, Aug 6, 2013 at 12:24 PM, Jimmy Huang notifications@github.comwrote:

對了,寫php-cli應該就ok了吧?

— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22157626 .

吳銘軒

專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573

jimyhuang commented 11 years ago

其實php-cli跟web意思一樣,總之先寫個可以work的php應該就可以了 :)

ttcat commented 11 years ago

抓了苦勞網的 tags, 但是直接比對 wiki 有點不太穩當,很多沒有 好像抓苦勞 tag 爬苦勞自己比較對

http://ttcat.net/gettags/?q=2013 http://ttcat.net/gettags/?q=2012 http://ttcat.net/gettags/?q=2011 http://ttcat.net/gettags/?q=2010

另外也要解決跨年的 tags 例如每年都有秋鬥,每年的秋鬥應該要集合在一個政誌裡面

jimyhuang commented 11 years ago

感覺人腦可以處理 XD 3:00 來衝刺一下,一人10個,20分鐘就完成了 XD

jimyhuang commented 11 years ago

ttcat,

  1. 你做好的那幾個連結掛了
Warning: Invalid argument supplied for foreach() in /hermes/bosoraweb058/b1916/ipw.ttcat/public_html/gettags/index.php on line 54
  1. 我依照你寫的,寫好爬蟲在/tools裡頭
  2. 你要不要把php commit到 本專案的 tools 裡頭?
jimyhuang commented 11 years ago

你的連結又好了!!! 我已把苦勞網的wiki資料都爬回來,整理掉不行的條目,目前需要:

https://docs.google.com/spreadsheet/pub?key=0AuwTztKH2tKidGZ2cEdVY19PZEpzRWVJWWZOeUI1Y0E&gid=2

@ttcat 要不要接手?

ttcat commented 11 years ago

request taken!!!!!!!

稍早連結失效是 google api request limit. 一天100次,但他的計算很不準

ttcat commented 11 years ago

確認一下這幾個問題,我明天補上:

是不是從毒澱粉開始? 正確的事件日期(起始日?) end time 的規則是? 清除不需要的事件(我可以自己判斷嗎?XD,例如 633 那個是重要還是不重要?現在好像除了我抓的 tag 還有混別的) tag 是任意?

jimyhuang commented 11 years ago

@ttcat

jimyhuang commented 11 years ago

這應該算完成了 tag 清整轉移到 #48 繼續處理