data-engineers-id / stratnas-data-infrastructure

Apache License 2.0
0 stars 0 forks source link

3108 - Pembangunan Indonesian National AI Super Computer #15

Open welly87 opened 2 years ago

welly87 commented 2 years ago

tujuan

data platform merupakan infrastruktur yang memberikan wahana untuk berkolaborasi antara pemerintah, industri, universitas dan komunitas. data platform ini tidak hanya menjadi penyedia storage dan komputasi tetapi juga menjadi one stop shop utk riset, kolaborasi dan juga sarana penghubung antara ide, analisa dan juga pengindustrialisasian produk kecerdasan artifisial. sehingga hasil riset dapat dengan mudah di cari dan dimanfaatkan.

pemerintah

pembuatan policy dan juga request untuk kebutuhan penyelengaraan dapat ditampung pada platform ini, sehingga prioritas dapat dikerjakan bergotong royong dengan transparansi yang tinggi dan pengawasan kolektif dari ke empat pilar quad helix. policy tersebut dapat dikembangkan dalam smart contract yang dikendalikan oleh KORIKA sehingga kualitas dan juga keamanan dapat ditentukan sesuai dengan standard startnas kai.

komunitas dapat dimanfaatkan sebagai crowdsourcing dari penguji smart contract sehingga tidak terdapat celah yang dapat dimanfaatkan oleh pihak yang bermaksud buruk. Smart contract tersebut dapat dimanfaatkan juga untuk pemberian insentif bagi researcher dan juga industri dalam hal keringanan pajak dan juga pembiayaan riset dan infrastruktur.

ekosistem universitas

Tidak hanya itu saja, tetapi platform ini juga dapat digunakan oleh siswa dan mahasiswa untuk melakukan riset dan juga pembelajaran yang menggunakan teknologi data. Sehingga kurangnya kemampuan perangkat tidak menjadi masalah karena semua komputasi dilakukan di platform yang bisa diakses dengan menggunakan browser, ringan dan tidak membutuhkan bandwith yang besar.

Kita juga dapat melihat behaviour dari setiap siswa, mahasiswa, dosen dan guru dalam keaktifan dalam menggunakan platform. Hal ini diperlukan untuk menjaring talenta sejak dini sehingga mendapatkan perhatian dari pemerintah. Potensi tersebut bisa diarahkan dan dibina sehingga menjadi ujung tombak untuk pembuatan inovasi produk kecerdasan artifisial.

ekosistem industri

industri membutuhkan pemikiran dan ide kreatif dari semua kalangan terutama dalam pembuatan produk baru. Industri dapat menyediakan dana, data dan pengembangan infrastrutkur bahkan membuat kompetisi dan juga riset khusus dan mempunyai management project yang fokus pada kebutuhan sekarang dan kedepan.

komunitas

dengan model crowdsourcing maka komunitas dapat aktif memberikan kontribusi dalam pembuatan model, produk, implementasi karya ilmiah dan juga pembuatan open source software dan datasets yang berkualitas tinggi. dengan demikian model yang sudah dibuat juga dapat digunakan kembali sehingga mempercepat pembangunan produk nasional baru. Terciptanya kolaborasi yang seamless dengan transparansi yang tinggi membuat komunitas semakin aktif berkontribusi didasari oleh semangat gotong royong.

data perilaku pengguna platform dapat digunakan untuk pembuatan data product yang bisa memfasilitasi link and match antara potensi individu, kebutuhan industri, hasil pemikiran universitas dan tenaga ahli juga keterlibatan pemerintah dalam pembinaan dan pembuatan policy sebagai payung aktifitas.

karakteristik

  1. terdistribusi secara lokasi tapi tersentralisasi secara governance
  2. perhitungan yang optimal sesuai dengan demographic dari data center
  3. penggunaan sumber daya yang efisien dan tidak merusak lingkungan dengan emisi karbon yang besar. ini dapat memanfaatkan teknologi ARM64 atau prosesor dan inovasi chip yang mempunyai kemampuan khusus tapi hemat daya
  4. mempunyai standard schema data dan interface akses data yang menjadi standard nasional dan merujuk ke standard open format internasional (i.e parquet, arrow and arrow flight)
  5. dibuat berdasarkan teknologi open source yang dapat dimodifikasi sesuai dengan kebutuhan nasional
  6. dapat dideploy data center on-premise, multi-cloud, hybrid dan tidak terpenjara oleh vendor asing
  7. keamanan dan penjagaan privasi data sesuai dengan undang-undang

komponen infrakstruktur

  1. ingestion (batch/streaming)
  2. storage engine (columnar, graph, unstructured, vector, hdf5, timeseries, etc)
  3. query engine
  4. data processing (CPU, GPU, TPU)
  5. scheduler, workflow engine
  6. approval system
  7. visualization and business intelligence
  8. standard api dan standard format
  9. research platform, notebook
  10. mlops
  11. knowledge based center (research paper, etc)
  12. AI product showcase and marketplace
  13. metadata management dan data catalog to enable data shopping
  14. dataset, features store, metrics store
  15. research, collaboration, competition, investment dan product creation/deployment platform like kaggle/databricks
  16. data governance platform (observability, quality, metrics, see collibra/alation/privacera)
  17. smart contract for financial insentif

teknologi

Tingkat kebutuhan analisa data negara Indonesia, use case dan computation power, sangatlah. Sehingga dibutukan konsep sharing resource yang terdesentralisasi yang dimungkinkan dengan teknologi blockhain. Ada beberapa terminologi dan implementasi pengaplikasian nya seperti

  1. rendertoken.
  2. decentralized data platform
  3. federated learning
  4. decentralized machine learning

federated learning

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html https://federated.withgoogle.com/ https://www.unite.ai/what-is-federated-learning/ https://blogs.nvidia.com/blog/2019/10/13/what-is-federated-learning/ https://analyticsindiamag.com/a-beginners-guide-to-federated-learning/

decentralized data platform

Kita dapat memanfaatkan data center yang kurang maksimal penggunaannya untuk kepentingan penyimpanan data dan juga komputasi yang terdistribusi. Data tidak perlu dibawa semua ke central repository tapi digunakan secara on-demand dan mencari resource yang sedang lowong dan memiliki kemampuan yang sesuai.

Wilayah indonesia yang luas dan dipisahkan oleh laut menyebabkan kesenjangan antara beberapa daerah dalam ketersediaan perangkat, internet dan juga fasilitas. data platform diharapkan dapat bekerja local di dalam wilayah lingkungan tertentu dan memanfaatkan sistem sinkronisasi yang sangat efisien utk data yang sering di akses secara on demand.

Beberapa hal ini perlu diperhatikan:

  1. Jarak secara network yang dekat,
  2. kebutuhan resource yang cocok (GPU, CPU dan memory)
  3. jarak antara compute yang tersedia dan juga lokasi data yang terdekat

https://datarade.ai/platform-categories/decentralized-data-platforms https://towardsdatascience.com/how-to-build-a-decentralized-data-platform-58158db6409b https://pixelplex.io/blog/decentralized-storage/ https://solidproject.org//users/get-a-pod

decentralized machine learning

https://medium.com/decentralized-machine-learning/introducing-dml-decentralized-machine-learning-protocol-f954ccd9f90d https://frag.medium.com/decentralized-machine-learning-b9fa9d78710 https://medium.com/the-challenge/a-brief-history-of-decentralized-computing-d0d665783bcf https://www.skalex.io/decentralized-computing/#decentralized-computing