jakartaresearch / adi-buzzer

Analyzing and Detecting Indonesia Buzzer in Twitter About Politics and Social Issues
3 stars 0 forks source link

Gather data including tweet, retweet, like, reply #6

Closed andreaschandra closed 3 years ago

rubentea16 commented 4 years ago

@andreaschandra sample data from last 1 days untuk 20 user data.pkl = https://drive.google.com/file/d/1tdg6pKFTfEM5gzvxyP4hgt5b_Q53uxx0/view?usp=sharing

Data Format : image

andreaschandra commented 4 years ago

kalo ambil latest up to 1000 tweets bisa? @rubentea16

rubentea16 commented 4 years ago

https://drive.google.com/file/d/1tdg6pKFTfEM5gzvxyP4hgt5b_Q53uxx0/view?usp=sharing

andreaschandra commented 4 years ago

kalo ambil by date, gw pikir kalo bisa ambil semua ya kenapa ngga 🤣

rubentea16 commented 4 years ago

@andreaschandra 1000 tweets ? bisa kok gw tinggal buat date nya, ambil sampe nyampe 1000 tweets aja

rubentea16 commented 4 years ago

*buang if date nya

rubentea16 commented 4 years ago

kalo ambil by date, gw pikir kalo bisa ambil semua ya kenapa ngga

hmmm, nnti gw coba semoga limit nya aman wkwkwk

andreaschandra commented 4 years ago

concern gw untul threshold ini ada 2 ben,

  1. data tweet yang cukup untuk pemodelan klasifikasi akun
  2. data tweet yang cukup untul bisa gather tweet yang sifatnya reply dr sebuah tweet
andreaschandra commented 4 years ago

kalo dari PoV nomer 2. liat berdasarkan days lebih revelan sih. tapi gimana kalo user tiap hari nya ngetweet 1000 kali. gimana handle nya?

rubentea16 commented 4 years ago

klo no. 1 "cukup" itu berapa banyak ya kita mau define nya ?wkwk

rubentea16 commented 4 years ago

no. 2 define aja mau brpa banyak capture replies nya, itu kan dari tweets udah gw pisahin mana yg tweets/retweet/replies

andreaschandra commented 4 years ago

klo no. 1 "cukup" itu berapa banyak ya kita mau define nya ?wkwk

@AndhikaS97 komentar dik. kalo dari gw problem no 1, 100 cukup si

rubentea16 commented 4 years ago

kalo dari PoV nomer 2. liat berdasarkan days lebih revelan sih. tapi gimana kalo user tiap hari nya ngetweet 1000 kali. gimana handle nya?

@andreaschandra user ngetweet 1000x / hari -> BOT / PENGANGGURAN wkwkwk

andreaschandra commented 4 years ago

no. 2 define aja mau brpa banyak capture replies nya, itu kan dari tweets udah gw pisahin mana yg tweets/retweet/replies

hooo, kalo gw mungkin ambil replies nya di "state awal" 1000 replies. ini buat kita bisa draw tweet networks nya sih. lalu nanti setiap hari diupdate. gimana menurut lu ben?

andreaschandra commented 4 years ago

kalo dari PoV nomer 2. liat berdasarkan days lebih revelan sih. tapi gimana kalo user tiap hari nya ngetweet 1000 kali. gimana handle nya?

@andreaschandra user ngetweet 1000x / hari -> BOT / PENGANGGURAN wkwkwk

nah ini dia hahahaha. rare case banget sih.

rubentea16 commented 4 years ago

no. 2 define aja mau brpa banyak capture replies nya, itu kan dari tweets udah gw pisahin mana yg tweets/retweet/replies

hooo, kalo gw mungkin ambil replies nya di "state awal" 1000 replies. ini buat kita bisa draw tweet networks nya sih. lalu nanti setiap hari diupdate. gimana menurut lu ben?

boleh sih klo state awal nya banyak, tpi 1000 replies kebanyakan ga ya ? @AndhikaS97 gw sih oke klo di scheduling buat narik data nya per hari wkwk biar ga kena rate limit nya

AndhikaS97 commented 4 years ago

ini kita milih satu diantara 2 pov itu kan? kalo kata w untuk nomer 1, 100 cukup. nah untuk nomer 2 1000 kebanyakan si wkwk kalo diturunin gimana?

andreaschandra commented 4 years ago

ini kita milih satu diantara 2 pov itu kan? kalo kata w untuk nomer 1, 100 cukup. nah untuk nomer 2 1000 kebanyakan si wkwk kalo diturunin gimana?

ga milih sih dik, gw mikir 1000 biar dapet tweet networknya. dan analisis viral tweetnya ada banyak. 1000 tweets mungkin orang normal dalam waktu seminggu gitu ya. lama ga kira kira kalo 1000? wdyt? @rubentea16 @AndhikaS97

AndhikaS97 commented 4 years ago

hmmm gatau ya kalo lama atau engganya, tp kalo diliat dari angkanya si kayanya lama wkwk cuman kalo mau dicoba angka segitu gas aja

andreaschandra commented 4 years ago

gimana @rubentea16

rubentea16 commented 4 years ago

@AndhikaS97 @andreaschandra oke" gas, 1000 tweets ya per user

andreaschandra commented 4 years ago

@rubentea16 kalo 1000 tweets berapa lama ben ._.

andreaschandra commented 4 years ago

@rubentea16 gw itung limit tweet/user_timeline 900. andai kita ambil 1 orang 900 tweet dalam window 15 menit. 1 jam = 4 users 24 jam = 96 users.

kalo diturunin jadi 300 tweets 96 x 3 = 288 users ben.

gimana menurut lo? latest 300 tweets biasanya sampe berapa hari kebelakang?

rubentea16 commented 4 years ago

@rubentea16 kalo 1000 tweets berapa lama ben ._. gatau nih wkwkw ~

rubentea16 commented 4 years ago

@rubentea16 gw itung limit tweet/user_timeline 900. andai kita ambil 1 orang 900 tweet dalam window 15 menit. 1 jam = 4 users 24 jam = 96 users.

kalo diturunin jadi 300 tweets 96 x 3 = 288 users ben.

gimana menurut lo? latest 300 tweets biasanya sampe berapa hari kebelakang?

gw inspect dulu datanya yaa nnti malem buat bisa mastiin

rubentea16 commented 4 years ago

gw inspect username : @RamliRizal Dalam 1 hari dia buat 48 status, status ini terdiri dari (tweet, retweet, reply) sedangkan khusus u/ tweet aja itu 13 tweet.. Jadi, kira" 1000/13 = hampir 77 hari ( 2,5 bulanan ) kalau konsisten trs yaa @andreaschandra @AndhikaS97 wdyt guys ?

rubentea16 commented 4 years ago

Kalo 300 tweet/ 15 tweet per hari = 20 harian lah guys

andreaschandra commented 4 years ago

wogh.... bole la ini menurut gw ambil latest 300. gmn @AndhikaS97 ?

AndhikaS97 commented 4 years ago

gas dah, cmn w butu bantuan ni install tools wkwk

andreaschandra commented 4 years ago

tools apa dik @AndhikaS97 ?

andreaschandra commented 4 years ago

gas mang @rubentea16

rubentea16 commented 4 years ago

oke, gw gas 300 latest tweets/ user yaa @AndhikaS97 @andreaschandra

rubentea16 commented 4 years ago

@AndhikaS97 @andreaschandra ini ya data tweet,retweet, replies, like ~ 300 latest tweets https://drive.google.com/drive/folders/12fBhg1-IY4sQ14w_lz_942AC2LsECP-b?usp=sharing

rubentea16 commented 4 years ago

@AndhikaS97 @andreaschandra ini ya data tweet,retweet, replies, like ~ 300 latest tweets https://drive.google.com/drive/folders/12fBhg1-IY4sQ14w_lz_942AC2LsECP-b?usp=sharing

versi json nya @AndhikaS97 @andreaschandra https://drive.google.com/drive/folders/1zhLTs1-pshvej9pfWpvoL6s6kog-Z_L-?usp=sharing

AndhikaS97 commented 4 years ago

mantep benn, kira kira labelinnya gimana ya? ada saran ga guys? w bingung labelinnya gimana nih.

andreaschandra commented 4 years ago

mantap @rubentea16 yang doccano jadi ga bisa samsek labelnya?

andreaschandra commented 4 years ago

7K users detected as indonesian by biography of the profile @rubentea16 @AndhikaS97 https://1drv.ms/u/s!AqT02jIBGKNfhXA9J7B2992mc7Y5?e=uStvJ0

andreaschandra commented 4 years ago

@AndhikaS97 @andreaschandra ini ya data tweet,retweet, replies, like ~ 300 latest tweets https://drive.google.com/drive/folders/12fBhg1-IY4sQ14w_lz_942AC2LsECP-b?usp=sharing

versi json nya @AndhikaS97 @andreaschandra https://drive.google.com/drive/folders/1zhLTs1-pshvej9pfWpvoL6s6kog-Z_L-?usp=sharing

file @Ujee2_212.json tweet index 0, di web aslinya ada hashtag, di datanya ngga. cek sekalian jg yang mention account @rubentea16

rubentea16 commented 4 years ago

[14:52, 6/20/2020] Ruben Stefanus: https://developer.twitter.com/en/docs/tweets/tweet-updates [14:53, 6/20/2020] Ruben Stefanus: jdi twitter text nya max. char 140, lebih dari itu di truncate [14:53, 6/20/2020] Ruben Stefanus: jdi semua tweet yg panjang" itu kan hashtags nya di akhir, kepotong semua, jadi nya ga ke detect hashtag nya [14:54, 6/20/2020] Ruben Stefanus: nah, twitter nyediain mode=extended (bisa dapet full text) . tinggal tweepy support pake mode extended atau kaga

rubentea16 commented 4 years ago

tweepy support u/ mode extended

andreaschandra commented 4 years ago

tweepy support u/ mode extended

niceee