g0v / twangry

政誌 - Angry event made in Taiwan.
http://fact.g0v.tw
Do What The F*ck You Want To Public License
51 stars 25 forks source link

Normalize web page date object parser #29

Open jimyhuang opened 11 years ago

jimyhuang commented 11 years ago

有些內容值得參考...

例如: http://e-info.org.tw/node/82965

這些十大新聞都在這裡 http://e-info.org.tw/taxonomy/term/2641

pm5有沒有什麼建議?

pm5 commented 11 years ago

我們目前都從維基百科拉資料, 所以我想也許能說服他們把一部份的內容用 CC BY-SA 3.0 放到維基百科上. 這樣維基百科可以增加內容, (也許) 會有志願者繼續追蹤這些議題, 我們也可以不用花太多力氣擴充就拉到這些內容.

只是要怎麼切割出可以開放釋出的內容, 要想一下...

jimyhuang commented 11 years ago

想想看~這優先度比較低

pm5 commented 11 years ago

剛才跟瑞祥談了一下. 照我原本的想法, 把新聞編寫進維基百科, 順便增加百科的資料, 就要找人來寫. 一時好像找不到人來寫哩... 跟中文維基百科的社群不大熟.

另一個方案就是去 parse RSS.

jimyhuang commented 11 years ago

其實e-info的都還好,畢竟資料不多,不過比較難的是得去找到對應的wiki詞條~ 我覺得wiki社群可能會有興趣,但得把成果做好,在跟他們推

jimyhuang commented 11 years ago

話說週六、日碰到wiki社群,據說8/17他們有個小聚會(維基人才知道的) 我想過去推推看,pm5要不要一起去?

pm5 commented 11 years ago

8/17 (六) 我應該可以... 不過讓我考慮一下.

pm5 commented 11 years ago

還有要去嗎?

pm5 commented 11 years ago

弄好 #66, 可以動手來寫環境資訊中心的 parser 了~

jimyhuang commented 10 years ago

噗,兩個月過後 XD 這個看來先不管了? 或是說把作法寫出來,看看有沒有接手的機會 :P

pm5 commented 10 years ago

working on it...

jimyhuang commented 10 years ago

目前覺得可以寫兩個層次的library

  1. normalize.js ,算是wikipedia.js的一般版本,餵進去html string、cache bin、cache id,就會透過zhdateparser.js處理好date object。 例如:傳入值 content / e-info.org.tw,就會存在 public/cache/e-info.org.tw/node-xxx.json
  2. 計算文字密度的library - textdensity.js,餵進去網址,就可以依據網頁的文字密度,找到主文所在的div,找到之後,可橋接normalize.js應用
    • 先找meta desc/og:description,針對desc找到所在的文章段落,然後反推回去主文
    • 若沒有meta,就得計算密度,依照文字集中程度反推div

any idea?

jimyhuang commented 10 years ago

from @audreyt https://github.com/Kerrick/readability-js ? or http://www.readability.com/developers/api/parser 有可用的資源

查了一下,這裡有類似的算式,應可更簡化,歡迎 @pm5 隨時繼續跳坑 XD https://github.com/Kerrick/readability-js/blob/develop/readability.js#L700