kiang / tw-campaign-finance

台灣政治獻金資料
4 stars 4 forks source link

人工校正介面需求 #3

Open kiang opened 10 years ago

kiang commented 10 years ago

@jellyalex978

目前 cells-text 的內容是由程式產生,但是我們會需要一個介面,讓使用者能夠線上更正或加入個別儲存格的文字,最後產出一個完整且正確的輸出結果

目前初步的想法是,使用者在進入介面後可以認領校正工作,工作的分配以頁為單位,一旦認領了之後就會在任務清單上標示有人認領,避免有人做重複的工作。

在使用者認領了工作之後會進入草稿模式,將目前對應的 cells-text 內容複製一份讓使用者進行編輯,使用者編輯完成之後可以將該草稿標示已完成

已經完成的草稿需要由另一位網友看過,然後標示狀態為 已審閱 ,最後再由管理者看過後將單一工作標示為已完成,然後完成的資料輸出到 cells-text 去。

目前 cells-text 裡面個別檔案的內容並沒有標示所有儲存格,而是只放有 OCR 結果的,所以產生草稿時需要產生所有儲存格的資料,而不是只產生 cells-text 裡面有的儲存格。

jellyalex978 commented 10 years ago

進度有點慢 XD 簡單報告如下 http://twcampaignfinance.ojelly.com/peopleocr/

目前完成 json 匯入 資料庫 然後清單頁面 與 資料修改頁面(已實作修改資料庫) 未完成 驗證與認領部分的功能 , 想用 session id 做鎖定就好 然後介面還有一點隨便 , 設計師正在抽時間拚

jellyalex978 commented 10 years ago

然後 我不會 push 到這邊 所以先丟在這裡 https://github.com/jellyalex978/tw-campaign-finance

kiang commented 10 years ago

我其實重製了所有的圖片,請從這兒下載原始資料: http://203.69.90.98/tw-campaign-finance-2014-04-07.tar.gz

解壓縮後的檔案說明如下:

kiang commented 10 years ago

重製後的圖片格式一律是 jpg , 9d5f800695584f90e89e90786c349d2e-0001.jpg 這樣的檔名規則是 md5('丁守中/交通旅運支出/交通旅運支出.pdf') . '-0001.jpg' ,前面是用 pdf 路徑產生 md5() ,後面則是頁數,使用 pdf2jpg.csv 第二、三兩個欄位組合而成,主要是因為原始檔名比較多狀況(中文、空白與括弧等等)才做轉換

kiang commented 10 years ago

我使用 https://github.com/andrewelkins/Laravel-4-Bootstrap-Starter-Site 作為基礎去建立 https://github.com/kiang/peopleocr ,會以 https://g0v.hackpad.com/UChWZQoE6DG 作為底稿去進行實做

jellyalex978 commented 10 years ago

報告不太理解 ~ XD

kiang commented 10 years ago

目前 https://github.com/ctiml/campaign-finance.g0v.ctiml.tw 已經直接有一個輸入介面,這次的進度也已經完成,也許可以以他的成果作為基礎去延伸