kiang / tw-campaign-finance

台灣政治獻金資料
4 stars 4 forks source link

text-position 部份資料有問題 #1

Closed kiang closed 10 years ago

kiang commented 10 years ago

例如 text-position/990.csv 是空的,但透過其他程式產出的文字檔案 text/990.txt 是有資料的,因此 https://github.com/yllan/TextPositionExtractor 應該有錯誤存在。

已知錯誤是檔案名稱包含 '(' ')' 或空白字元應該要做些處理才能讀到檔案

SansWord commented 10 years ago

我了解了,我來試試看。

SansWord commented 10 years ago

我還在下載那堆 pdf, 不過如果是檔明有特殊字元的問題的話,可以接受我直接先跑 code 把特殊字元檔名改掉嗎? 還是必須在維持同一個檔名的狀況下運作?

kiang commented 10 years ago

檔名希望不要動,因為有多個人同時作業,或是動了之後保留 reference ?

SansWord commented 10 years ago

了解了,我先看看讀檔的部份如何處理。方便提供單一小檔作為測試之用嗎?因為整包有點大~

kiang commented 10 years ago

https://drive.google.com/#folders/0B9tD1zENsweyUmZycEhWZjR5MUk 看得到嗎?如果看不到可以 pm 我一個 gmail 信箱,我把你加入

yllan commented 10 years ago

screen shot 2014-03-23 at 11 47 59 pm 990 本來就是空的啊

kiang commented 10 years ago

@yllan, 990 我可以取出文字,可以參考我目錄裡面的 text/990.txt

yllan commented 10 years ago

那張圖是空的為何會有文字?是不是 index 搞錯? csv 裡面的頁數應該是從 0 開始?

yllan commented 10 years ago

http://pic.pimg.tw/ronnywang/1393568659-2559766215.jpg ronnywang 的 csv 裡記載的 990 的圖片也是空的

kiang commented 10 years ago

@yllan, output.csv 的 990 對到的是 "馬英九/匿名捐政/匿名捐贈 (2).pdf" ,猜測應該是檔名造成的誤判。

yllan commented 10 years ago

@kiang 他對到的是 "馬英九/匿名捐政/匿名捐贈 (2).pdf" 的 182 頁(或是 0-based 的 p. 181)

kiang commented 10 years ago

透過程式掃了一下,目前 text-position/.csv 檔案沒有內容但對應的 text/.txt 有解出內容的資料(後面接的數字是 text/*.txt 的大小): text-position/1202.csv 1413 text-position/1228.csv 1667 text-position/1254.csv 1610 text-position/1280.csv 1540 text-position/1306.csv 1527 text-position/1358.csv 1601 text-position/1384.csv 1481 text-position/1410.csv 1690 text-position/1436.csv 1998 text-position/1462.csv 1082 text-position/1490.csv 2254 text-position/1516.csv 2180 text-position/1542.csv 2090 text-position/1568.csv 2256 text-position/1594.csv 2112 text-position/2164.csv 2054 text-position/2190.csv 2200 text-position/2216.csv 2140 text-position/2259.csv 1584 text-position/2285.csv 1669 text-position/2311.csv 1714 text-position/2337.csv 2027 text-position/2365.csv 1631 text-position/246.csv 1909 text-position/2506.csv 1191 text-position/2536.csv 1721 text-position/272.csv 1682 text-position/2769.csv 1046 text-position/298.csv 1514 text-position/324.csv 1609 text-position/350.csv 1653 text-position/402.csv 1619 text-position/75.csv 1258

kiang commented 10 years ago

我解文字的程式可以參考: https://github.com/kiang/tw-campaign-finance/blob/master/scripts/kiang/6_pdf2text.php

看起來頁碼的對應並沒有問題

yllan commented 10 years ago

我們的 PDF 是一樣的嗎? 你可以截一下

1202 馬英九/雜支支出/雜支支出.pdf 025 http://pic.pimg.tw/ronnywang/1393580927-2382076431.jpg?v=1393580934 7020 4964

這個檔案 p.26 的圖嗎?我這邊看的確是空白。

screen shot 2014-03-24 at 12 28 28 am

kiang commented 10 years ago

透過 Evince document viewer 看到的 p.26 的確是空白的,應該是我這邊用的程式有問題,可能是安裝的 pdfbox.jar 在頁碼計算上有問題,因為 text/1202.txt 的內容是來自 p.27 ,跟資料對不起來。

我找看看問題出在哪裡,抱歉造成困擾

kiang commented 10 years ago

我看到問題了,是我耍白痴...

kiang commented 10 years ago

在 45b45c7f84defbfc2ad94f660b5ca22e70747150 修正了