bigscience-workshop / data_tooling

Tools for managing datasets for governance and training.
Apache License 2.0
77 stars 48 forks source link

Create dataset OSAC #292

Closed albertvillanova closed 2 years ago

albertvillanova commented 2 years ago

Source: Masader Project

apergo-ai commented 2 years ago

self-assign

apergo-ai commented 2 years ago

Done: https://huggingface.co/datasets/bigscience-catalogue-data/osac

albertvillanova commented 2 years ago

Thanks @apergo-ai .

The dataset was not loading because 7-zip compression is not supported out of the box:

I have refactored the repo:

Sample:

{'text': '\u202dBBC Arabic\u202c - \u202eاقتصاد وأعمال\u202c - \u202eتطوير حقول النفط العراقية بين الحاجة والاجندات السياسية\u202c تواجه الحكومة العراقية الاسبوع الحالي ضغوطا متزايدة لتغيير خططها الخاصة للدخول في عقود مع شركات عالمية لتطوير 29 حقلا نفطيا على مرحلتين تتمثل اولاهما بثمانية حقول للنفط والغاز ستعلن عطاءات الشركات العالمية الخاصة بها نهاية يونيو/حزيران الجاري. العراق، النفط، حسين الشهرستاني، اقليم كردستان، الشرق الاوسط، اوبك الرئيسية الشرق الأوسط العالم شارك برأيك اقتصاد وأعمال منوعات علوم وتكنولوجيا رياضة راديو وتلفزيون تطوير حقول النفط العراقية بين الحاجة والاجندات السياسية تواجه الحكومة العراقية الاسبوع الحالي ضغوطا متزايدة لتغيير خططها الخاصة للدخول في عقود مع شركات عالمية لتطوير 29 حقلا نفطيا على مرحلتين تتمثل اولاهما بثمانية حقول للنفط والغاز ستعلن عطاءات الشركات العالمية الخاصة بها في 29 و 30 يونيو/حزيران الجاري. ومثل وزير النفط حسين الشهرستاني الثلاثاء امام البرلمان لشرح خطط وزارته لاسناد مهام تطوير حقول المرحلة الاولى التي يتنافس على عقودها 31 شركة عالمية ويتوقع ان تضيف 1.5 مليون برميل يوميا لانتاج العراق النفطي خلال السنوات الاربع او كما تعتزم الحكومة طرح المرحلة الثانية لتنمية القدرة الانتاجية لتطوير 10 حقول نفطية و حقل واحد للغاز والتي ستعلن عطاءات الشركات بشأنها بنهاية العام الحالي. ويتوقع ان تسهم المرحلتان في رفع انتاج العراق من مستواه الحالي عند 2.4 مليون برميل الى حدود 6 ملايين برميل خلال خمس سنوات. ودافع الشهرستاني الثلاثاء عن استراتيجيته النفطية القاضية امام البرلمان بفتح حقول العراق النفطية امام الشركات الاجنبية وذلك للمرة الاولى منذ تأميم القطاع في 1972. ضغوط سياسية الا ان قوى سياسية عراقية تتصدرها حكومة اقليم كردستان، وجهت نقدا لخطط الوزارة لاشراك شركات عالمية لاستخراج النفط قائلة انها "غير دستورية وضد مصالح الشعب العراقي". وقد وصف الناطق باسم وزارة النفط العراقية عاصم جهاد في تصريحات لبي بي سي الانتقادات التي وجهتها قوى سياسية رئيسية خطط الوزارة لمنح عقود استغلال 6 حقول نفطية وحقلين للغاز بنهاية الشهر الحالي بانها مجافية للحقائق. ويتساءل المراقبون حول التاثير المحتمل للضغوط السياسية التي تمارسها قوى عراقية على قرار الحكومة بشان منح التراخيص. ويقول وليد خدوري، الكاتب العراقي المتخصص في الشؤون النفطية ان حزب الفضيلة الشيعي، وحكومة اقليم كردستان تمثلان اكبر الكتل السياسية المعارضة لخطة وزارة النفط، الا انه قال ان من غير الواضح مدى قدرة هذه القوى على اعاقة تقدم المشروع. واشار الى ان الشاغل الرئيسي يجب ان يتمثل في الرغبة في تطوير القدرة الانتاجية للعراق في مجالي النفط والغاز. واعتبر خدوري في حديث لبي بي سي ان الخوف هو في تكرار تجربة الكويت التي اعاقت فيها القوى البرلمانية تقدم مشاريع تطوير القدرة الانتاجية. واشار الى ان مخاوف من وقوع الفساد يجب ان لا تعيق تقدم مشاريع النفط خصوصا ان الاتهامات لم تطل الوزير الحالي حسين الشهرستاني. يذكر ان مشاريع تطوير الحقول الجديدة تشمل حقول مثل كركوك والرميلة الشمالي والجنوبي وهي حقول ضخمة الى جانب حقول اخرى تشير التقديرات الى انها تمثل مجتمعة 80 في المائة من اجمالي الاحتياطات النفطية للبلاد. ويشك بعض النواب في ان هذه العقود تمثل افضل مصلحة للعراق قائلين ان البلاد استثمرت بالفعل مبالغ ضخمة في حقولها ويريدون ان يستجوبوا الشهرستاني بشأن التفاصيل. وتعتبر المزايدات حجر الزاوية في الخطط الحكومية لزيادة الانتاج الى اكثر من ستة ملايين برميل يوميا خلال خمس سنوات. 1.7 تريليون دولار وتحتاج بغداد الى السيولة النقدية من ارتفاع مبيعات النفط من اجل اعادة الاعمار بعد عشرات السنين من الصراع. وقال عاصم جهاد ان الحكومة عملت على السنة والنصف الماضية لضمان شفافية اجراءات ترسية العقود حيث سيتم فتح العروض الاسبوع المقبل بشكل علني وسيعلن الفائزين بشكل مباشر تمهيدا لرفع اسماء هذه الشركات الى مجلس الوزراء للمصادقة عليهم الشهر المقبل قبل ابرام العقود النهائية في شهر اغسطس/اب 2008. وقال ان الشركات الفائزة ستمنح رخصة عمل لفترة 20 عاما قابلة للتمديد لخمس سنوات، وستدفع ضريبة دخل بواقع 35%، وهي ملزمة بان لا تزيد نسبة العمالة الاجنبية فيها عن 10 الى 15 في المائة من اجمالي القوى العاملة. واشار الى ان العقود هي في الواقع عقود خدمة وليست عقود شراكة حيث ستتولى الحكومة العراقية تسويق وبيع نفطها في العالم. وتقول الحكومة العراقية انها قد تضيف 1.7 تريليون دولار على مدى السنوات العشرين المقبلة في حال المضي في مشروع تطوير القدرة الانتاجية للنفط والغاز في البلاد. وهي سيولة ستحتاجها الحكومة لاعادة اعمار البلاد بعد عقود من الصراعات السياسية والاضطرابات الامنية. ويملك العراق ثالث اكبر احتياطي نفطي مؤكد في العالم بعد روسيا وايران، ويقدر حجمه 115 مليار برميل. وقد حامت شكوك خلال الفترة الماضية حول رغبة الدول النفطية في المضي قدما في خططها السابقة لتطوير قدراتها الانتاجية مع تراخي الطلب العالمي بسبب الازمة المالية العالمية وشح السيولة.'}
albertvillanova commented 2 years ago

DONE: https://huggingface.co/datasets/bigscience-catalogue-lm-data/lm_ar_osac


{'text': '\u202dBBC Arabic\u202c - \u202eاقتصاد وأعمال\u202c - \u202eتطوير حقول النفط العراقية بين الحاجة والاجندات السياسية\u202c تواجه الحكومة العراقية الاسبوع الحالي ضغوطا متزايدة لتغيير خططها الخاصة للدخول في عقود مع شركات عالمية لتطوير 29 حقلا نفطيا على مرحلتين تتمثل اولاهما بثمانية حقول للنفط والغاز ستعلن عطاءات الشركات العالمية الخاصة بها نهاية يونيو/حزيران الجاري. العراق، النفط، حسين الشهرستاني، اقليم كردستان، الشرق الاوسط، اوبك الرئيسية الشرق الأوسط العالم شارك برأيك اقتصاد وأعمال منوعات علوم وتكنولوجيا رياضة راديو وتلفزيون تطوير حقول النفط العراقية بين الحاجة والاجندات السياسية تواجه الحكومة العراقية الاسبوع الحالي ضغوطا متزايدة لتغيير خططها الخاصة للدخول في عقود مع شركات عالمية لتطوير 29 حقلا نفطيا على مرحلتين تتمثل اولاهما بثمانية حقول للنفط والغاز ستعلن عطاءات الشركات العالمية الخاصة بها في 29 و 30 يونيو/حزيران الجاري. ومثل وزير النفط حسين الشهرستاني الثلاثاء امام البرلمان لشرح خطط وزارته لاسناد مهام تطوير حقول المرحلة الاولى التي يتنافس على عقودها 31 شركة عالمية ويتوقع ان تضيف 1.5 مليون برميل يوميا لانتاج العراق النفطي خلال السنوات الاربع او كما تعتزم الحكومة طرح المرحلة الثانية لتنمية القدرة الانتاجية لتطوير 10 حقول نفطية و حقل واحد للغاز والتي ستعلن عطاءات الشركات بشأنها بنهاية العام الحالي. ويتوقع ان تسهم المرحلتان في رفع انتاج العراق من مستواه الحالي عند 2.4 مليون برميل الى حدود 6 ملايين برميل خلال خمس سنوات. ودافع الشهرستاني الثلاثاء عن استراتيجيته النفطية القاضية امام البرلمان بفتح حقول العراق النفطية امام الشركات الاجنبية وذلك للمرة الاولى منذ تأميم القطاع في 1972. ضغوط سياسية الا ان قوى سياسية عراقية تتصدرها حكومة اقليم كردستان، وجهت نقدا لخطط الوزارة لاشراك شركات عالمية لاستخراج النفط قائلة انها "غير دستورية وضد مصالح الشعب العراقي". وقد وصف الناطق باسم وزارة النفط العراقية عاصم جهاد في تصريحات لبي بي سي الانتقادات التي وجهتها قوى سياسية رئيسية خطط الوزارة لمنح عقود استغلال 6 حقول نفطية وحقلين للغاز بنهاية الشهر الحالي بانها مجافية للحقائق. ويتساءل المراقبون حول التاثير المحتمل للضغوط السياسية التي تمارسها قوى عراقية على قرار الحكومة بشان منح التراخيص. ويقول وليد خدوري، الكاتب العراقي المتخصص في الشؤون النفطية ان حزب الفضيلة الشيعي، وحكومة اقليم كردستان تمثلان اكبر الكتل السياسية المعارضة لخطة وزارة النفط، الا انه قال ان من غير الواضح مدى قدرة هذه القوى على اعاقة تقدم المشروع. واشار الى ان الشاغل الرئيسي يجب ان يتمثل في الرغبة في تطوير القدرة الانتاجية للعراق في مجالي النفط والغاز. واعتبر خدوري في حديث لبي بي سي ان الخوف هو في تكرار تجربة الكويت التي اعاقت فيها القوى البرلمانية تقدم مشاريع تطوير القدرة الانتاجية. واشار الى ان مخاوف من وقوع الفساد يجب ان لا تعيق تقدم مشاريع النفط خصوصا ان الاتهامات لم تطل الوزير الحالي حسين الشهرستاني. يذكر ان مشاريع تطوير الحقول الجديدة تشمل حقول مثل كركوك والرميلة الشمالي والجنوبي وهي حقول ضخمة الى جانب حقول اخرى تشير التقديرات الى انها تمثل مجتمعة 80 في المائة من اجمالي الاحتياطات النفطية للبلاد. ويشك بعض النواب في ان هذه العقود تمثل افضل مصلحة للعراق قائلين ان البلاد استثمرت بالفعل مبالغ ضخمة في حقولها ويريدون ان يستجوبوا الشهرستاني بشأن التفاصيل. وتعتبر المزايدات حجر الزاوية في الخطط الحكومية لزيادة الانتاج الى اكثر من ستة ملايين برميل يوميا خلال خمس سنوات. 1.7 تريليون دولار وتحتاج بغداد الى السيولة النقدية من ارتفاع مبيعات النفط من اجل اعادة الاعمار بعد عشرات السنين من الصراع. وقال عاصم جهاد ان الحكومة عملت على السنة والنصف الماضية لضمان شفافية اجراءات ترسية العقود حيث سيتم فتح العروض الاسبوع المقبل بشكل علني وسيعلن الفائزين بشكل مباشر تمهيدا لرفع اسماء هذه الشركات الى مجلس الوزراء للمصادقة عليهم الشهر المقبل قبل ابرام العقود النهائية في شهر اغسطس/اب 2008. وقال ان الشركات الفائزة ستمنح رخصة عمل لفترة 20 عاما قابلة للتمديد لخمس سنوات، وستدفع ضريبة دخل بواقع 35%، وهي ملزمة بان لا تزيد نسبة العمالة الاجنبية فيها عن 10 الى 15 في المائة من اجمالي القوى العاملة. واشار الى ان العقود هي في الواقع عقود خدمة وليست عقود شراكة حيث ستتولى الحكومة العراقية تسويق وبيع نفطها في العالم. وتقول الحكومة العراقية انها قد تضيف 1.7 تريليون دولار على مدى السنوات العشرين المقبلة في حال المضي في مشروع تطوير القدرة الانتاجية للنفط والغاز في البلاد. وهي سيولة ستحتاجها الحكومة لاعادة اعمار البلاد بعد عقود من الصراعات السياسية والاضطرابات الامنية. ويملك العراق ثالث اكبر احتياطي نفطي مؤكد في العالم بعد روسيا وايران، ويقدر حجمه 115 مليار برميل. وقد حامت شكوك خلال الفترة الماضية حول رغبة الدول النفطية في المضي قدما في خططها السابقة لتطوير قدراتها الانتاجية مع تراخي الطلب العالمي بسبب الازمة المالية العالمية وشح السيولة.',
 'meta': "{'file': 'osac-uft8/اقتصاد/اقتصاد bbc اقتصاد و اعمال090623_iraq_oildfield_development.shtml.txt.txt'}"}