Sarah111-AHM / Semsmah

2 stars 0 forks source link

Phase3 | saqqa #41

Closed Sarah111-AHM closed 1 year ago

Sarah111-AHM commented 1 year ago

بعد تحميل ملف البيانات من Kaggle، يمكن استخدام مكتبات Python مثل pandas و matplotlib لصفّ البيانات وإنشاء المخططات والتقارير والرسوم البيانية.

أولاً، يمكن قراءة ملف البيانات باستخدام pandas وتحويله إلى DataFrame:

import pandas as pd

# قراءة ملف البيانات وتحويله إلى DataFrame
df = pd.read_csv('bitstampUSD_1-min_data_2012-01-01_to_2021-03-31.csv')

ثم يمكن تنظيف البيانات وتصفيتها وفقًا للاستخدام المطلوب. على سبيل المثال، يمكن حذف الأعمدة التي لا تحتوي على بيانات كافية، ويمكن ملء القيم المفقودة باستخدام القيم السابقة أو اللاحقة.

# حذف الأعمدة التي لا تحتوي على بيانات كافية
df = df.drop(['Open', 'High', 'Low', 'Close', 'Volume_(BTC)', 'Volume_(Currency)', 'Weighted_Price'], axis=1)

# ملء القيم المفقودة باستخدام القيم السابقة
df = df.fillna(method='ffill')

بعد ذلك، يمكن إنشاء المخططات والتقارير والرسوم البيانية باستخدام matplotlib وغيرها من المكتبات. على سبيل المثال، يمكن إنشاء مخطط يوضح تطور سعر البيتكوين على مدى الوقت:

import matplotlib.pyplot as plt

# إنشاء مخطط بياني يوضح تطور سعر البيتكوين على مدى الوقت
plt.plot(df['Timestamp'], df['Close'])
plt.xlabel('Timestamp')
plt.ylabel('Price')
plt.title('Bitcoin Price over Time')
plt.show()

كما يمكن إنشاء مخططات أخرى لتحليل البيانات بشكل أعمق، مثل مخطط يوضح توزيع السعر في البيانات:

# إنشاء مخطط بياني يوضح توزيع السعر في البيانات
plt.hist(df['Close'], bins=50)
plt.xlabel('Price')
plt.ylabel('Frequency')
plt.title('Distribution of Bitcoin Prices')
plt.show()

هذا مثال بسيط، ويمكن تطوير المخططات والتقارير والرسوم البيانية وفقًا لاحتياجات الدراسة والبيانات المتاحة.

بالطبع، يمكن استخدام pandas و numpy لتحليل وصفّ الداتا سيت. فيما يلي مثال على كيفية تحليل وصف الداتا سيت باستخدام pandas:

import pandas as pd

# قراءة ملف البيانات وتحويله إلى DataFrame
df = pd.read_csv('bitstampUSD_1-min_data_2012-01-01_to_2021-03-31.csv')

# عرض أول 5 صفوف في الداتا سيت
print(df.head())

# عرض عدد الصفوف والأعمدة في الداتا سيت
print(df.shape)

# وصف الداتا سيت باستخدام describe()
print(df.describe())

# عرض عدد القيم المفقودة في كل عمود
print(df.isnull().sum())

يمكن تحليل البيانات بشكل أعمق باستخدام أدوات أخرى مثل matplotlib و seaborn. على سبيل المثال، يمكن إنشاء مخطط يوضح تطور سعر البيتكوين على مدى الوقت:

import matplotlib.pyplot as plt

# إنشاء مخطط بياني يوضح تطور سعر البيتكوين على مدى الوقت
plt.plot(df['Timestamp'], df['Close'])
plt.xlabel('Timestamp')
plt.ylabel('Price')
plt.title('Bitcoin Price over Time')
plt.show()

كما يمكن إنشاء تقرير يوضح توزيع السعر في البيانات:

import seaborn as sns

# إنشاء تقرير يوضح توزيع السعر في البيانات
sns.histplot(data=df, x='Close', bins=50, kde=True)
plt.xlabel('Price')
plt.ylabel('Frequency')
plt.title('Distribution of Bitcoin Prices')
plt.show()

يمكن استخدام numpy لإجراء عمليات حسابية على البيانات، مثل حساب المتوسط والانحراف المعياري للسعر:

import numpy as np

# حساب المتوسط والانحراف المعياري للسعر
price_mean = np.mean(df['Close'])
price_std = np.std(df['Close'])
print('Price Mean: ', price_mean)
print('Price Standard Deviation: ', price_std)

يمكن استخدام scikit-learn لتطوير نماذج تنبؤية باستخدام بيانات التدريب، واختبارها باستخدام بيانات الاختبار، وتحسين نتائج التنبؤ باستخدام تقنيات التعلم الآلي والذكاء الاصطناعي.