rlads2021 / hw6

HW 6: ggplot2
https://rlads2021.github.io/hw6
0 stars 2 forks source link

my_data資料清理問題 #2

Open ying-shu opened 3 years ago

ying-shu commented 3 years ago

我想要計算每一部film裡面POC佔的比例,並讓這個比例形成一個新的column。我試過group跟summarize,但這樣好像只能每部film裡面POC和White的words總數,我不知道要怎麼選取POC的words數然後除以words總數,來得到我想要的percent。我查了很多資料,也試著使用for loop,但還是不知道要怎麼得到我想要的結果,不知道助教能不能給我一些提示? 螢幕擷取畫面 (129)

liao961120 commented 3 years ago

因為我對這筆資料不太熟悉,所以我無法從敘述中理解你想對資料做什麼。或許你可以先試著把想做的事情整理成示意圖 (類似下圖,但在紙上畫畫就夠了XD),這樣或許比較能幫助你想清楚要做什麼。這也可以幫助你確認這個任務是否適用 group_by() 以及 summarise() 達成 (有可能需要其它方式)

ying-shu commented 3 years ago

photo_2021-04-12_09-28-51 我想把每部電影中POC和White的字數換算成百分比,寫成新的一欄: POC_words_percent

liao961120 commented 3 years ago

這個要透過 group_by() + mutate() 的組合喔,你可以先試試看這樣會跑出什麼東西:

df %>% 
  group_by(film) %>% 
  mutate(words_total = sum(words))