이미지에서 데이터생성 검토 202401

기계새 2024. 12. 31. 11:07

2024. 12. 31. 11:07

이미지에서 생성 검토

yolo란?
yolo?
- YOLO(You Only Look Once)는 이미지 검출을 위한 딥러닝 기반의 알고리즘. YOLO는 이미지를 한 번만 보고 객체를 검출한다는 의미를 가지고 있습니다. YOLO는 이미지를 7x7 격자 형태로 나누고, 각 격자마다 객체가 있을 확률과 객체의 위치를 예측합니다. 이를 통해 이미지 내 모든 객체를 검출할 수 있습니다.
왜 yolo?
- 상품 이미지에는 많은 정보가 있으나, 이를 활용하려면 어느정도의 인식 노하우가 필요하다. 이를 ai로 대체할 수 있지 않을까?
검토해야할것들
- yolo를 적용하려면 데이터셋이 필요하다.
- 데이터셋을 만들려면 라벨링 작업이 필요하다.
- 라벨링 작업은 이미지 박싱? 작업이 필요하다
- 박싱은 인력으로 한다?
- 자동으로 할수 있는 방법을 찾아보자.
- 자동으로는 할 수는 있을거같다.
해보자
- 로컬에 셋팅
- 기학습된 기본 모델로 사용 시 사람/옷 검출 정도는 쉽게 가능하다.
왜 안 yolo?
- 한 카테고리에 해당하는 목록의 이미지 1:N
- 한 이미지에 한 카테고리에 대한 객체 검출 검사 1:1
- 여러 이미지라면 ? N개의 카테고리에 대한 N개의 이미지 검사 N**N
- 이미지를가진상품수 * 속성 갯수 = 연산 수
너무나 많은 연산이 들어가게 되고, 학습에 너무나 많은 자원이 소모 될듯하다.

open ai fine-tuning
- 23년8월 공개
- 이미지는 돈이 많이 드니 일단 텍스트 위주
- 왜냐하면 내가 낼거니깐.. $50 결제
- (상품명+단품명+브랜드) → (속성+속성명) 1000여개 쌍 준비
파인튜닝
- 일단 davinci 모델에 맞춰 파인튜닝 .
- 왜? prompt 구조가 간단해서 변환이 쉬워서.
- 실수였음. 다빈치 모델은 비용이 비쌈
- 매개변수 수 (davinci=1750B / gpt3.5=137B)
- 하지만 gpt3.5가 저렴하고 성능도 뛰어나다.

prompt > completion 구조에서 messages[role/user/assistant+content] 3짝으로 된 json리스트 데이터로 변경해줘야 한다. (토큰이 길어진다)
- 아깝다고 하나의 json에 다 넣으면 실패난다.
튜닝완료 테스트
- 15:35 시작 → 17:31 완료 / 파인튜닝에는 많은 시간이 걸렸다.
- $48.19 :: gpt-3.5-turbo-1106 > 442KB (238>442) >> $44.97 (-$3.21)
- 어느정도의 적합한 데이터를 추출해 낼 수 있다.
- davinci와 달리 python code로 조회할 수 있다. → 시스템 대량 호출이 가능하게 된다.
- 호출비용이 많이 감소했다. 5번정도 호출해도 금액변동도 없음 (10배 차이나니,2~3원정도로 예상)
후기
- 속성추출은 쓸만하다.
- gpt3.5는 파인튜닝비용은 좀더 드나 (토큰비 상승) 호출에는 비용이 감소한다.
- role:system 의 셋팅을 좀더 고도화 할 수 있을거 같다.
- 만약 이걸 시스템화 한다면?
  - 예상비용을 측정해보자 (AJ)
  - 각 카테고리별로 파인튜닝 모델이 있으면 좋을듯

LLLM을 활용한 AI 코드리뷰 셋팅하기 (with Ollama) (1)	2024.11.29