Closed jimyhuang closed 11 years ago
(這裡有過期嗎?)
苦勞網的 tag 規則很嚴謹,內部資料、新聞事件的紀錄都用內部 wiki 架設 「怎麼編進去」是不是直接爬每個事件的 rss?
tag爬下來沒問題,但是tag不盡然有wiki的條目~這得人眼、肉眼對應... Orz
Google 搜尋 site:zh.wikipedia.org + { 去掉年份的 tag } 然後取第一則
這樣規則有可能嗎?
2013/8/6 Jimmy Huang notifications@github.com
tag爬下來沒問題,但是tag不盡然有wiki的條目~這得人眼、肉眼對應... Orz
— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22125725 .
吳銘軒
專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573
good idea. ttcat要不要 file_get_contents + file_get_contents 一下 XD
目前我只會用 phpQuery 爬東西誒,這樣合格嗎? XD
On Tue, Aug 6, 2013 at 12:15 PM, Jimmy Huang notifications@github.comwrote:
good idea. ttcat要不要 file_get_contents + file_get_contents 一下 XD
— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22157424 .
吳銘軒
專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573
套句clkao大的slide don't ask permission, ask forgiveness XD
抓來的話,可以先存在index.coolloud.org.tw.json ,格式可先參照這個,到時再來看怎麼跟google doc整併 http://angry.g0v.tw/index.json
對了,寫php-cli應該就ok了吧?
原諒我,我也不會 php-cli lol
On Tue, Aug 6, 2013 at 12:24 PM, Jimmy Huang notifications@github.comwrote:
對了,寫php-cli應該就ok了吧?
— Reply to this email directly or view it on GitHubhttps://github.com/g0v/twangry/issues/28#issuecomment-22157626 .
吳銘軒
專案統籌 | 綠色公民行動聯盟 FB : http://www.facebook.com/gcaa.org.tw +886 935 697 573
其實php-cli跟web意思一樣,總之先寫個可以work的php應該就可以了 :)
抓了苦勞網的 tags, 但是直接比對 wiki 有點不太穩當,很多沒有 好像抓苦勞 tag 爬苦勞自己比較對
http://ttcat.net/gettags/?q=2013 http://ttcat.net/gettags/?q=2012 http://ttcat.net/gettags/?q=2011 http://ttcat.net/gettags/?q=2010
另外也要解決跨年的 tags 例如每年都有秋鬥,每年的秋鬥應該要集合在一個政誌裡面
感覺人腦可以處理 XD 3:00 來衝刺一下,一人10個,20分鐘就完成了 XD
ttcat,
Warning: Invalid argument supplied for foreach() in /hermes/bosoraweb058/b1916/ipw.ttcat/public_html/gettags/index.php on line 54
你的連結又好了!!! 我已把苦勞網的wiki資料都爬回來,整理掉不行的條目,目前需要:
https://docs.google.com/spreadsheet/pub?key=0AuwTztKH2tKidGZ2cEdVY19PZEpzRWVJWWZOeUI1Y0E&gid=2
@ttcat 要不要接手?
request taken!!!!!!!
稍早連結失效是 google api request limit. 一天100次,但他的計算很不準
確認一下這幾個問題,我明天補上:
是不是從毒澱粉開始? 正確的事件日期(起始日?) end time 的規則是? 清除不需要的事件(我可以自己判斷嗎?XD,例如 633 那個是重要還是不重要?現在好像除了我抓的 tag 還有混別的) tag 是任意?
@ttcat
這應該算完成了 tag 清整轉移到 #48 繼續處理
他們命名有個規則...
2007 http://goo.gl/rNZhnH 2008 http://goo.gl/j6a0JG 2009 http://goo.gl/iQf9i2 2010 http://goo.gl/QSmKuc 2011 http://goo.gl/MIPEBk 2012 http://goo.gl/PBWQw5 2013 http://goo.gl/HS3BpY
目前想法是,或許是把這幾頁的事件名稱爬下來,然後再來看怎麼編進去年表內~ 「怎麼編進去」目前是沒個定案..