ITU-Apollo / Group_Homeworks

0 stars 0 forks source link

hw_q1 #1

Closed imranbozaci closed 2 years ago

imranbozaci commented 2 years ago

-drivedaki sunum içeriğindeki literatürü check edelim, rdd/data frame o researchlerde kullanılmışmı? nasıl kullanılmış?(referanslar slideında linkler var)

Olabildiğince açık yazmaya çalıştım, ama sorunuz olursa konusuruz. Deadline: cumartesi aksam/pazar sabah:)

simgeco commented 2 years ago

https://docs.google.com/document/d/1w6QKs4zREx0xesqV0Ra9tIVtq4queJvrxds9mcx-jbg/edit

bulgularimizi buraya girebiliriz @senasa21 @alpsah @imranbozaci

senasa21 commented 2 years ago
imranbozaci commented 2 years ago

@senasa21 bu cok guzel genel fikir vermesi acisindan. Eklerim mutlaka.Ama bana makale/ research gerekli. Researchlerde de -o researchde dataframe mi rdd mi kullanmislar? -Projedeki analitik calisma neymis? -Rdd yada dataframei neden tercih etmisler? -Bi avantaji yada dezavabtaji olmus mu? -ortam ve diğer yazılımlar neymis?

gibi bilgileri ozetleyebilirsen super olur. Sorun olursa konusalım.

simgeco commented 2 years ago

bulabildigim en detayli calismalardan biri https://arxiv.org/pdf/2003.05615.pdf oldu. ancak dogru bir bakis acisiyla okuma yapamiyorum veya konseptlere pek hakim degilim sanirim, dogru yerlerde miyim dersiniz? Vakit kaybetmemek acisindan soruyorum :) RDD/dataset ayrimi seviyesinde veya derslerden duydugumuz toollar seviyesinde bir aciklamaya rastlayamadim henuz.

imranbozaci commented 2 years ago

selam biraz makale baktım; Siz de bir inceler misiniz linklerdekileri? Direk code snippets yada classifications ile ilgili data frame/rdd/dataset üzerine research yok.

spark rdd text, spark rdd unstructured diye aratığımda birseyler buldum işimizi görür diye düsünüyorm.

https://www.researchgate.net/publication/266797612_Memory_or_Time_Performance_Evaluation_forIterative_Operation_on_Hadoop_and_Spark https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf https://www.researchgate.net/publication/303626518_Distributed_Classification_of_Text_Documents_on_Apache_Spark_Platform https://people.csail.mit.edu/matei/papers/2015/sigmod_spark_sql.pdf https://link.springer.com/article/10.1007/s00607-021-00932-y https://ieeexplore.ieee.org/abstract/document/7991567 https://cs.brown.edu/research/pubs/theses/masters/2016/shao.qiming.pdf https://www.researchgate.net/publication/326860347_Performance_Comparison_of_Three_Spark-Based_Implementations_of_Parallel_Entity_Resolution_DEXA_2018_International_Workshops_BDMICS_BIOKDD_and_TIR_Regensburg_Germany_September_3-6_2018_Proceedings https://staff.fnwi.uva.nl/a.s.z.belloum/Project-Descriptions/Literature_Study/Baris-cem-viral-spark.pdf

Bu linklerdeki researchlere rddnin dataframein datasetin ne hayrı varmıs nerelerde kullanılmıs gibi özetler çıkarsanız yeterli olur bence daha search etmek için kasmayın @simgeco @senasa21