SEACrowd / seacrowd-datahub

A collaborative project to collect datasets in SEA languages, SEA regions, or SEA cultures.
Apache License 2.0
57 stars 54 forks source link

Closes #63 | Create dataloader for MongabayConservation #538

Open megasiska86 opened 4 months ago

megasiska86 commented 4 months ago

Please name your PR title and the first line of PR message after the issue it will close. You can use the following examples:

Title: Closes #63| Add/Update Dataloader Mongabay

First line PR Message: Closes #63

where you replace the {ISSUE_NUMBER} with the one corresponding to your dataset.

Checkbox

akhdanfadh commented 3 months ago

Here is my general review of the dataloader:

  1. Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
  2. Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (#63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
  2. Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}
holylovenia commented 3 months ago

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

megasiska86 commented 3 months ago

Here is my general review of the dataloader:

  1. Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
  2. Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
  2. Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

Thank you for the review.

  1. At the beginning I tried to use TEXT schema since my dataset belongs to text classification task. But I got issue regarding my training set that use probability per class as label (since my training set type is weak-labeled dataset). So I proposed to use this t2t schema that's more flexible and suitable for my label type
  2. I unified the label type to string due to vary label format I used. For tags classification, the label example is something like this: Training
    [0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]

    Valid & Test

    [1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0,  0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0]

    And for sentiment classification, the label example is something like: Training

    [0.999, 0.0, 0.0]

    Valid & Test

    negative

cc: @akhdanfadh

megasiska86 commented 3 months ago

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

holylovenia commented 3 months ago

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86? cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

holylovenia commented 3 months ago

A friendly reminder for @megasiska86 to address the suggestions. 🙏

holylovenia commented 2 months ago

Hi @megasiska86, is there anything we can help you with for the dataloader?

megasiska86 commented 2 months ago

Here are my comments of the dataset:

  1. The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86? cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

Okay, will do it in the end of this week. thank you

holylovenia commented 2 months ago

Okay, will do it in the end of this week. thank you

Thanks @megasiska86! Feel free to ask @akhdanfadh and @jen-santoso if you have any questions or concerns!

holylovenia commented 2 months ago

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) by 30 May, so it'd be great if we could wrap up the reviewing and merge this PR before then.

holylovenia commented 1 month ago

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) in 31 hours, so it'd be great if we could wrap up the reviewing and merge this PR before then.

holylovenia commented 1 week ago

Hi @megasiska86, thank you for contributing to SEACrowd! I would like to let you know that we are still looking forward to completing this PR (and dataloader issues) and maintaining SEACrowd Data Hub. We hope to enable access to as many standardized dataloaders as possible for SEA datasets. ☺️

Feel free to continue the PR whenever you're available, and if you would like to re-assign this dataloader to someone else, just let us know and we can help. 💪

Thanks again!

cc: @akhdanfadh @jen-santoso