Kimuksung / bigdata

0 stars 0 forks source link

지금까지 R 정리 #16

Open Kimuksung opened 4 years ago

Kimuksung commented 4 years ago

R은 기본적으로 in-memory computing programming. package install / library 를 해주어 memory에 package를 올려주어야 한다. library check -> search() package들은 기본적으로 dependency를 가지고 있다.

Data structure 1 dimension => vector function : c() 2 dimension => matrix / data frame data frame이 data type이 column마다 자유롭기 때문에 주로 사용 3 list => key value를 이용한 data 저장 방식 (Hash 생각하면 댈듯)

factor vs table vs frame factor 는 vector를 leveling 한 것. data frame은 2차원 배열 형태이며, R이 제공해주는 기본 형태 table은 data frame을 발전 시켜 속도, 메모리 처리 등을 더 빠르게 해주도록 구현 되어 있다. table과 frame은 거의 유사하다고 봐도 될듯

결측치 처리(NA) na.string = 해당 단어를 na로 바꾸어준다. is.na = boolean 형태로 NA인지 알려준다. na.rm = 통계 자료에서 사용할 떄에 NA는 참고하지 않도록 na.omit = 결측 값 있는 행 제거

virtualization

  1. descrete 1) 막대차트 barplot() 2) 점 차트 dot char() 3) 파이 차트(원) pie()

  2. continous 1) 상자 그래프 boxplot() 2) 대칭성 hist() 3) 산점도 plot()

data handling

  1. package(dplyr) filter() = subset과 같은 함수로 특정 data를 검색하도록 해준다. arrange() select() mutate() = 새로운 변수를 생성 summarise() = 요약 통계
  2. reshape dcast() melt() package