2개년도 이상 데이터가 존재하는 기업을 추출할 때, 다양한 방법들이 있겠지만
pandas의 중복값을 확인하는 duplicated() 메서드를 활용할 수 있습니다.
예를 들어, 아래와 같은 데이터프레임이 존재한다고 가정할 때.
duplicated('컬럼명', keep=False)
를 사용해주시면 해당 컬럼에서 중복되는 값이 존재하는 경우를 모두 확인할 수 있습니다.
단, 반드시 keep=False를 해주셔야 중복되는 모든 값들을 추출할 수 있으며, default 값은 keep=first이기 때문에 keep 파라미터 설정하지 않고 그냥 컬럼명만 지정하시면 중복되는 값들 중 첫번째 행은 계속 누락이 됩니다.
따라서, 저희 분석 목적에는 keep=False를 적용해주시는 게 적합합니다.
2개년도 이상 데이터가 존재하는 기업을 추출할 때, 다양한 방법들이 있겠지만 pandas의 중복값을 확인하는 duplicated() 메서드를 활용할 수 있습니다.
예를 들어, 아래와 같은 데이터프레임이 존재한다고 가정할 때.
duplicated('컬럼명', keep=False)
를 사용해주시면 해당 컬럼에서 중복되는 값이 존재하는 경우를 모두 확인할 수 있습니다.단, 반드시
keep=False
를 해주셔야 중복되는 모든 값들을 추출할 수 있으며, default 값은keep=first
이기 때문에 keep 파라미터 설정하지 않고 그냥 컬럼명만 지정하시면 중복되는 값들 중 첫번째 행은 계속 누락이 됩니다. 따라서, 저희 분석 목적에는 keep=False를 적용해주시는 게 적합합니다.