AI-DX education 3조_알약 프로젝트_6
- 오늘 할 일
- yolo 새로운 데이터로 돌리기
- 랭체인에 쓸 데이터 다 만들기
1. yolo를 새로운 데이터로 돌리기
우리 조는 당초 노인들이 자주 걸리는 질병 7가지에 대한 전문의약품만을 대상으로 프로젝트를 진행하고자 했다. 그러나 프로젝트 최종 발표 시 실제 시연을 요구하는 강사님의 의견에 따라, 전문의약품은 의사의 처방 없이 구하기 어렵다는 현실적인 문제에 직면했다. 따라서 조원들이 소지하고 있는 일반의약품 중 aihub 데이터에 포함된 4종(부루펜정 400mg, 슈다페드정, 뮤코스텐캡슐 100mg, 삼남아세트아미노펜정)을 프로젝트 범위에 추가하여 실제 시연이 가능하도록 계획을 수정했다.
이러한 데이터 변경으로 인해 기존에 학습된 YOLO 모델을 새로운 데이터에 맞춰 다시 학습시켜야 하는 상황이 발생했다. 이전에는 학습 시간 단축 및 오류 발생 가능성을 최소화하기 위해 전체 데이터셋 중 일부인 샘플 데이터만을 사용하여 모델을 학습시켰다. 하지만 이제는 프로젝트 발표가 임박했으므로, 모델의 성능을 최대한 끌어올리기 위해 전체 데이터셋을 활용하여 YOLO 모델을 재학습하기로 결정했다. 전체 데이터셋을 활용한 학습은 샘플 데이터 학습에 비해 시간이 오래 걸리고, 간헐적으로 학습이 중단되는 문제가 발생할 수 있다는 점을 인지하고 있지만, 프로젝트의 성공적인 마무리를 위해 불가피한 선택이라고 판단했다.
조원분이 주신 classes.txt 바탕으로 data.yaml파일 만들기
2. 랭체인에 쓸 데이터 다 만들기
데이터 준비를 완료했다. 처음에는 웹 크롤링을 통해 필요한 데이터를 수집하려고 했으나, 강사님께서 우리 조의 현재 작업 속도와 필요한 데이터의 양(약 200개)을 고려했을 때, 크롤링 코드를 작성하고 실행하는 것보다 직접 데이터를 만드는 것이 더 빠르고 효율적일 것이라고 조언하셨다.
강사님의 조언에 따라 직접 데이터를 만들기로 결정했고, 200개 정도의 데이터는 비교적 빠르게 만들 수 있을 것이라 예상했다. 하지만 실제로 데이터를 만들어보니 생각보다 시간이 오래 걸렸다. 이미지 데이터의 품질을 유지하면서 라벨링 작업까지 병행해야 했기 때문에 예상했던 것보다 더 많은 시간과 노력이 필요했다.