Open eunhyeeechoi opened 4 years ago
PLACE 기준으로 CONCEPT(갯수) 내림차순으로 질의 res_df.groupBy("PLACE","CONCEPT").count().sort("PLACE","COUNT",ascending=False).show(n=60,truncate=False)
CONCEPT 기준으로 PLACE (갯수) 내림차순으로 질의 res_df.groupBy("CONCEPT","PLACE").count().sort("CONCEPT","COUNT",ascending=False).show(n=60,truncate=False)
<spark 를 이용해 oracle 데이터 집계>
mytext = sc.textFile("/user/myspark/reser.csv")
res_df=spark.read.csv(mytext)
oracle 내의 reservation 테이블을 csv 파일로 추출후 spark read 함수를 이용해 import 후의 모습
schema 가 기본 스키마로 생성되어 컬럼이름을 통한 쿼리가 되지 않는 모습
load 옵션 지정 후 로드 res_df_2 =
sqlContext.read.format("com.databricks.spark.csv").option("header","true").load("/user/myspark/reser.csv")
데이터 질의 성공컨셉별, 장소별 갯수가 가장 많은것을 질의하기 위해 groupby 사용
Originally posted by @eunhyeeechoi in https://github.com/eunhyeeechoi/Hadoop/issues/1#issuecomment-705417831