Open okiyuki99 opened 5 years ago
spark_web(sc) ブラウザで開く
The sparklyr package aids in using the “push compute, collect results” principle.
こういう使い方
The compute() command can take the end of a dplyr piped command set and save the results to Spark memory.
で、一旦Spark memoryに結果を保存できる
とは?
接続
sparklyr::spark_connect
sparklyr::spark_disconnect
sdf読み込み
dplyr::tbl(sc, table)
: table名からsdfとして読み込みsparklyr::sdf_sql(sc, sql)
: SQLからsdfとして読み込みsparklyr::sdf_copy_to
: ローカルからsdfとして読み込み (主に簡易テスト用)sparklyr::copy_to
=dplyr::copy_to
でも同じことができるTable操作
sparklyr::spark_write_table(x = sdf, name=table, mode = "overwrite")
: tableに保存sparklyr::sdf_register(sdf, name = table)
: sdfをtableとして登録する(SparkSQLで参照するためのキャッシュ的な使い方?)データ確認
sparklyr::sdf_dim(sdf)
: sdfの行数と列数を確認Partition操作
Sparkはデータをpartitionという単位で並列処理するので、パフォーマンスを決める上で重要
sparklyr::sdf_num_partitions(sdf)
: partitionの数を数えるsparklyr::sdf_repartition(sdf, 10)
: partitionの数を変更するML general
sparklyr::ml_predict
: 予測するsparklyr::ml_*_evaluator
: 評価するsparklyr::ml_save
: MLモデルの保存sparklyr::ml_load
: MLモデルのロードML methds
sparklyr::ml_als
: Alternating Least Squares (ALS) matrix factorizationsparkxgb::xgboost_classifier
: xgboostsparklyr::ml_generalized_linear_regression
: glmconfig
Deployment and Configuration
spark.*
: spark contextで指定するオプションspark.dynamicAllocation.maxExecutors
spark.executor.memory
spark.driver.memory
spark.yarn.executor.memoryOverhead
spark.yarn.driver.memoryOverhead
spark.executor.instances
spark.driver.cores
spark.executor.cores
spark.serializer
spark.sql.*
: SparkSQL周りのパフォーマンスチューニングのためのオプションspark.sql.shuffle.partitions
参考 : Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成 | Think IT(シンクイット)
sparklyr.*
: spark-submitコマンドで指定するオプションsparklyr.shell.driver-memory
注意点
公式サイト
Book
まとめ
参考