포토북 30장 자동 추천 — 새 접근 제안

2026-04-26 · 작성: AI팀 · 선행 보고서: 포토북 IQA PoC 분석 보고서

📌 요약

PoC 분석에서 단일 IQA 모델 교체로는 추천 문제가 안 풀린다는 사실이 정량 입증됐다. 새 접근은 "품질 단일 점수"를 버리고 멀티 신호 조합 시스템으로 간다. 핵심 신호 5가지: 중복 제거 · 얼굴/인물 · 시간 클러스터 · DPP 다양성 · memorability.

1. 왜 단일 IQA로 안 되는가 (선행 보고서 요약)

5개 모델(PaQ2PiQ → TOPIQ → MANIQA → LAION-Aes → HumanAesExpert-1B) 모두 AUC 0.4~0.56 — 변별력 거의 없음.
같은 행사의 사진은 품질이 비슷 → 점수 분포가 좁은 구간에 집중.
사용자가 사진을 빼는 진짜 이유: "비슷한 컷이 이미 있어서", "풍경보다 인물 우선", "한 시퀀스에서 대표 1~2장".

2. 제안 파이프라인

5단계 멀티 신호 조합. 각 단계는 독립 검증 가능하고 점진 도입할 수 있다.

Step 1 — 중복/얼굴 검출 (입력 정제)

중복 제거: 같은 컷이 3~5장 연속으로 찍힌 경우(셀카 배치 모드, 자동 연사) 한 장만 남긴다.

imagededup (현재 image-api에 사용 중) — perceptual hash 기반 빠른 중복 검출. 기존 인프라 재활용.
CLIP-similarity 보조 — 의미적 유사도로 "같은 장면 다른 각도"도 묶음.

얼굴 검출: 인물 사진 vs 풍경/사물 사진 분류 + 인물 식별.

YOLOv8-face (현재 image-api hd 모델) — 얼굴 박스/개수.
InsightFace 또는 FaceNet — 같은 인물 식별 (ArcFace embedding).

출력: 입력 100~500장 → 중복 제거 후 80~400장 + 각 사진의 (얼굴 수, 인물 ID, 인물 면적 비율).

Step 2 — TOPIQ-NR-FACE 하드 품질 컷오프

PoC에서 유일하게 약한 신호 발견된 모델. 메인 점수가 아닌 "최소 품질 통과" 필터로 활용한다.

임계값: TOPIQ-NR-FACE 점수 < 0.3 (negative p25 미만) → 제외 후보로 마킹.
이는 흐림/노출 오류/측면 얼굴 등 명백한 폐기 컷을 빠르게 거른다.
전체 처리 부담 적음 (1장 ~30ms, 100장 = 3초).

주의: 단독으로 30장을 못 정한다. 필터링 후보군 80~400장 → 50~300장 정도로 감소.

Step 3 — 시간/공간 클러스터링

같은 행사/시퀀스의 사진을 묶어 대표컷을 뽑는다. 한 시퀀스에서 너무 많이 뽑히는 걸 방지.

시간 신호: EXIF DateTime → 5~10분 간격으로 클러스터.
공간 신호: GPS 좌표 (있으면) 또는 CLIP-시각 임베딩 + DBSCAN.
출력: 사진별 "클러스터 ID" 라벨. 추천 단계에서 클러스터당 N장 제한.

장점: 내장 메타데이터(EXIF)만으로 70% 효과. 추가 모델 추론 없음.

Step 4 — DPP 다양성 selection (핵심)

Determinantal Point Process — 품질 × 다양성을 동시에 최적화하는 부분집합 선택 알고리즘. 영상 요약/추천 시스템에서 검증된 표준 기법.

핵심 아이디어: 점수 높은 K장을 그냥 뽑으면 비슷한 컷이 5장 → 품질 + 거리(다양성)의 행렬식을 최대화.
입력: Step 3까지의 후보군 + 각 사진의 임베딩 벡터 (CLIP).
관련 라이브러리: dpp_sample (공식 reference impl.), MS-DPPs (2025 SOTA).
품질 항: TOPIQ-NR-FACE 점수 또는 face count 기반 single value.
유사도 항: CLIP cosine + (시간 인접 페널티).

출력: K=30 후보 (1차).

Step 5 — 인물 균등 + memorability 보정

DPP만으로 풀리지 않는 인물 분포를 후처리한다.

인물 균등 분포: 같은 인물(Step 1 InsightFace ID)이 K=30 안에 8장 이상이면 일부 교체.
memorability 부스트: ResMem 같은 모델로 "기억에 남는 사진" 점수 → K-list 외부에서 boost. 미적이지 않아도 인상적인 컷 보존.
최종 30장 확정.

3. 구현 우선순위 (Phase별)

Phase	목표	측정 지표	일정
Phase 1 다양성 검증	Step 1 (중복/얼굴) + Step 4 (DPP) 단순 버전 PoC. 같은 3,985장에서 "사용자 30장과 얼마나 일치"	Recall@30 (사용자 수록 30장 중 추천에 포함된 개수)	3일
Phase 2 클러스터링	Step 3 (EXIF 시간 + CLIP 시각 클러스터) 추가. Phase 1 결과에 클러스터 제약 추가하여 재측정	Recall@30 + 클러스터 분포 (한 클러스터당 평균 K)	5일
Phase 3 DPP 통합	Step 4 정식 DPP 알고리즘 + Step 2 품질 필터. 임계값 튜닝. Phase 2 대비 +N% 개선 목표	Recall@30 + Diversity score (intra-K 평균 거리)	5일
Phase 4 운영 통합	image-api 또는 별도 서버에 Step 1~5 파이프라인 통합. SLA 측정 (100장 기준 목표 5초 이내).	p99 latency, qps_user, AB-test 추천 채택률	7일

4. 평가 지표 재정의

이번 PoC에서 AUC가 정확한 측정 도구가 아니었다. positive/negative는 단순 binary지만 추천 문제는 ranking + 부분집합 선택이다. 새 접근에선 다음 지표 사용:

지표	정의	목표
Recall@30	사용자가 실제 수록한 30장 중 추천 30장에 포함된 개수 / 30	≥ 0.5 (Phase 1) → 0.7 (Phase 4)
Diversity@30	추천 30장 간 평균 pairwise distance (CLIP cosine)	사용자 실제 수록의 +10% 이상
Cluster coverage	추천에 포함된 시간 클러스터 수 / 전체 클러스터 수	≥ 0.8
Person coverage	등장 인물 ID 수 / 전체 인물 ID 수	≥ 0.9
p99 latency	100장 갤러리 → 추천 30장까지 응답 시간	≤ 5초

5. 데이터셋 확대 검토

현재 PoC: 2일치 30 프로젝트 / 3,985장.
Phase 1 시작 전에 14일치(약 200 프로젝트, 25,000~35,000장)로 확대 권장. 이유:

샘플 사이즈 확보 (모델별 AUC 변동성 낮춤)

다양한 행사 유형(돌잔치/여행/일상/이벤트) 분포 확인

인물 식별의 정확도가 데이터 양에 의존 → 큰 데이터셋이 더 안정

기존 IDC 파서(extract_pos_neg.py) 재활용 — 추가 작업 1~2일.

6. 운영 배포 시 비용/구조

구성	리소스	월 비용
EC2 추론 (g6.xlarge × 1)	L4 24GB, Step 1~5 통합	약 $720
(현행 image-api 재활용 시)	0 추가 비용	$0
스토리지 (사용자 임베딩 캐시)	S3 또는 ChromaDB	~$30

현행 image-api에 신규 엔드포인트 /recommend/30로 통합 가능. 별도 인스턴스 없이도 운영 가능.

7. 의사결정 요청

승인 사항: Phase 1 진행 (3일) — 결과 보고 후 Phase 2~4 의사결정
리스크: 새 평가 지표(Recall@30) 정의가 사용자 행동 패턴 모델링에 의존 → 사용자 인터뷰 1~2건 권장 (포토북 편집 후 "왜 이 30장을 골랐는가" 정성 인터뷰)
대안: Phase 1 결과가 Recall@30 < 0.4면 → 사용자 인터뷰 우선 + 데이터셋 50일 확대

8. 참고 자료

DPP 논문/구현: https://arxiv.org/abs/2507.06654 (MS-DPPs 2025) / https://github.com/mehdidc/dpp (간단 reference)
InsightFace: https://github.com/deepinsight/insightface (얼굴 식별)
ResMem: https://github.com/Brain-Bridge-Lab/resmem (memorability)
imagededup: 현재 image-api의 fe 모듈
선행 보고서: 포토북 IQA PoC 분석 보고서 (5모델 × 3,985장 변별력 검증)