Open megasiska86 opened 4 months ago
Here is my general review of the dataloader:
t2t
schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text
schema and pass the label names for tags or sentiments to the label_names
argument. Also, the task is not Tasks.PARAPHRASING
.t2t
schema, the loaded data does not match the data type that should be (see the test result below). For example, the label
field should be an array and not a string.Here are my comments of the dataset:
INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}
INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}
Here are my comments of the dataset:
- The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso
Here is my general review of the dataloader:
- Why do you use
t2t
schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please usetext
schema and pass the label names for tags or sentiments to thelabel_names
argument. Also, the task is notTasks.PARAPHRASING
.- Even if you use
t2t
schema, the loaded data does not match the data type that should be (see the test result below). For example, thelabel
field should be an array and not a string.Here are my comments of the dataset:
- The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
- Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.
tag-classification test result
INFO:__main__:Dataset sample [source] {'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.', 'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'} INFO:__main__:Dataset sample [seacrowd_t2t] {'id': '0', 'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.', 'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]', 'text_1_name': 'text', 'text_2_name': 'weak_label'}
sentiment-classification test result
INFO:__main__:Dataset sample [source] {'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.', 'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']", 'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'} INFO:__main__:Dataset sample [seacrowd_t2t] {'id': '0', 'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.', 'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]', 'text_1_name': 'text', 'text_2_name': 'weak_label'}
Thank you for the review.
[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]
Valid & Test
[1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0]
And for sentiment classification, the label example is something like: Training
[0.999, 0.0, 0.0]
Valid & Test
negative
cc: @akhdanfadh
Here are my comments of the dataset:
- The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso
Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose
Here are my comments of the dataset:
- The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86? cc: @akhdanfadh @jen-santoso
Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose
I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?
A friendly reminder for @megasiska86 to address the suggestions. 🙏
Hi @megasiska86, is there anything we can help you with for the dataloader?
Here are my comments of the dataset:
- The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86? cc: @akhdanfadh @jen-santoso
Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose
I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?
Okay, will do it in the end of this week. thank you
Okay, will do it in the end of this week. thank you
Thanks @megasiska86! Feel free to ask @akhdanfadh and @jen-santoso if you have any questions or concerns!
Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) by 30 May, so it'd be great if we could wrap up the reviewing and merge this PR before then.
Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) in 31 hours, so it'd be great if we could wrap up the reviewing and merge this PR before then.
Hi @megasiska86, thank you for contributing to SEACrowd! I would like to let you know that we are still looking forward to completing this PR (and dataloader issues) and maintaining SEACrowd Data Hub. We hope to enable access to as many standardized dataloaders as possible for SEA datasets. ☺️
Feel free to continue the PR whenever you're available, and if you would like to re-assign this dataloader to someone else, just let us know and we can help. 💪
Thanks again!
cc: @akhdanfadh @jen-santoso
Please name your PR title and the first line of PR message after the issue it will close. You can use the following examples:
Title: Closes #63| Add/Update Dataloader Mongabay
First line PR Message: Closes #63
where you replace the {ISSUE_NUMBER} with the one corresponding to your dataset.
Checkbox
seacrowd/sea_datasets/{my_dataset}/{my_dataset}.py
(please use only lowercase and underscore for dataset folder naming, as mentioned in dataset issue) and its__init__.py
within{my_dataset}
folder._CITATION
,_DATASETNAME
,_DESCRIPTION
,_HOMEPAGE
,_LICENSE
,_LOCAL
,_URLs
,_SUPPORTED_TASKS
,_SOURCE_VERSION
, and_SEACROWD_VERSION
variables._info()
,_split_generators()
and_generate_examples()
in dataloader script.BUILDER_CONFIGS
class attribute is a list with at least oneSEACrowdConfig
for the source schema and one for a seacrowd schema.datasets.load_dataset
function.python -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py
orpython -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py --subset_id {subset_name_without_source_or_seacrowd_suffix}
.