Open choi-kyu-jeong opened 3 months ago
2.이미지 세트 폴더 구성형식으로 우선 구성, 400 S/N정도 구성
https://m.blog.naver.com/hiddenent/223237516332 여기에서 cnn에 대한 기본 코드를 참고함, 이후 chatGPT를 활용해서 구조를 내 데이터에 맞게 수정함. 각 파장별로 데이터를 실행하는거까지 성공하였으나 사진 파일에 불필요한 것들이 있으니, 그것을 없애는 작업을 해보려함
이렇게 변환함 추가로 흑백으로도 변환 시킬 예정
사진을 흑백화 시킴 초기 참고 논문에서 흑백화 하는것을 참고함
5/5 modeling_4 으로 4가지 이미지를 한꺼번에 입력으로 집어넣음
전체 데이터를 이미지 폴더에 넣어야함, 그런데 데이터에 라벨링이 제각기 다르게 되어 있어 사전 전처리를 진행함 그리고 S/N가 애초에 잘못 입력된 데이터가 있었음. 이거는 이미지 파일이 없기 때문에 코드를 돌릴때 결측치로 제외 될 것임.
400개의 데이터 IMAGE(1600EA)로 했을 땐 전처리 기능도 코드에 집어 넣었으나,, 4000개 데이터로 늘리니 너무 오래 걸림.. 매회 코드를 돌려볼때마다 전처리를 하지 말고, 잘라서 쓸 부분의 이미지들을 다 처리해놓고 그 데이터들로 진행해야 할듯.. 한 2~3분정도 걸리는듯.. 전처리만
ELECT EYE도 추가 할 수 있는데 그때는 3000EA 이상이 될 것이기에 사전 전처리를 해놓자..
images = np.array(images) train_labels = np.array(train_labels)
x_train, x_valid, y_train, y_valid = train_test_split(images, train_labels, test_size=0.2, random_state=42)
print(f"Total samples: {len(images)}") print(f"Training samples: {len(x_train)}") print(f"Testing samples: {len(x_valid)}")
data = pd.DataFrame(x_train) data['target'] = y_train clf = setup(data=data, target='target', remove_outliers=True, verbose=False)
top5_models = compare_models(fold=5, round=3, sort='AUC', n_select=5) print(top5_models)
model = top5_models[0] predictions = predict_model(model, data=pd.DataFrame(x_valid))
print(predictions)
pycaret이라는 내용을 찾아서 모델 비교하는 auto ML을 돌려보았다. 처음에는 pycharm에서 pycaret이 설치가 잘 안되서 환경 문제로 판단되어 jupyter nootbook으로 돌려보았다. 16:46~22:30 시작해서 돌아가는데 한참 걸리나보다.. 일단 기다려본다 이미지 전처리 하는데 시간이 걸림, 한 번 auto ml 돌리고, 4000개 이미지 set을 전처리를 해버리자, 그리고 전처리된 이미지셋이 잘 전처리 되었는지 대충 확인 해봐야함.
blender_top5 = blend_models(estimator_list=tuned_top5)
5개의 성능이 잘나오는 모델을 합쳐서
lab-meeting : 기본적인 auto ML을 사용해서 돌려본 내용이므로 너무 고전적인 모델들이 나온다. 최신 모델 형태로 돌려보자. 그리고 데이터 이미지 파일의 오분류 할 수 있을 만한 내용을 찾아보자 멀티모달을 할 수 있는 데이터 방식으로 데이터의 싱크가 가능해야함. -> 상온 광량, 조정기 데이터(제작 장비)를 1대1 매치 시킬 수 있음, 단 제작하는 과정 인력에 대한 내용은 변수로 판단하지 않음, 장비가 제작하는 것이기 때문, 그리고 각 제품에 들어가는 VCSEL에 대한 정보를 구한다면 구할 수 있으나 엄청난 노가다를 해야함. 각 OSA에 대한 VCSEL 정보는 최후의 보루로 사용해보겠음. -> 우선 google vertex AI를 활용하여 최신 auto ml로 진행해볼 예정이고, 사무실에 고사양 PC를 구비해 놓음, 반복 실행 작업은 그것으로 대체 할 수 있음. -> 7월 안에는 최신 autoML를 진행하고, base code로 잡을 수 있을 최신 모델을 선정 하는 것을 목표로 잡음 ->8월에는 선정된 base code에 멀티모달, 전처리, epoch 등의 변수 조절을 통한 결과물을 만들 수 있는 초기 단계까지 진행 목표
1.Deap learning 기반 COF 이미지 검사시스템