rlads2021 / hw10

HW 10: Vector representations of text
https://rlads2021.github.io/hw10/
0 stars 0 forks source link

第二題code chunk跑出error #1

Open tanlianhui opened 3 years ago

tanlianhui commented 3 years ago

第二題(LSA Dimensions & Classification)的第一個chunk,因為沒有write your code here所以應該我就直接跑了。 但是跑出來的卻是:

======== Model Performance: nd = 5 ======== Train accuracy: 0.7 Test accuracy: 0.4625

Test acc.: 0.4625

======= Predict new documents ======== Error in eval(predvars, data, env) : 找不到物件 'V1'

此外,自己寫的code chunk跑出來的數值也和Should print out的數值不同。 請問發生了什麼事情?麻煩助教解惑。

liao961120 commented 3 years ago

這邊要能正確跑出,第一題的 encode_document() 函數需要寫對喔 BTW 我目前看不到你的程式碼,所以無法斷定原因為何

tanlianhui commented 3 years ago

第一題的output經issue 2由更正之後是對的,那我先push寫好的code再請助教過目。

liao961120 commented 3 years ago

其實你的 encode_document() 沒有寫對喔,它只是看起來輸出一樣,但其實你回傳的是 data.frame 不是 matrix:

mat <- encode_document(docs = c(doc1, doc2), dtm = q_dfm, lsa = lsa_model)
class(mat)
#> [1] "data.frame"

這邊斷詞的時候建議可以透過 seg <- worker(bylines = TRUE) 的設定而不要透過 for loop (影片) 因為這樣可以讓你直接把 segment(docs, seg) 的結果直接傳入 tokens() (它就會自動 vectorize 分開處理各個 document)

tanlianhui commented 3 years ago

謝謝助教,已正常輸出。