← 뒤로
프로젝트 요약
- 한 줄 요약: 상시 GPU 인스턴스 대신 Lambda로 AI 분석을 실행해 트래픽 기반 스케일링과 비용 최적화를 달성했습니다.
- 진행/소속: 파트타임스터디
- 키워드:
AWS Lambda, S3, SNS, Slack, Lambda Layer
문제(AS-IS)
- GPU 기반 인스턴스 상시 구동으로 비용이 고정적으로 높음
- 한정된 리소스로 AI 프로세스 간 결과 간섭(리소스 경합)이 발생
- 피크 트래픽 시 리소스 부족 예외가 발생
목표(TO-BE)
- 트래픽에 따라 스케일링되는 AI 실행 환경 구축
- 협업사에서 CPU 기반 AI 코드 전달로 Lambda 전환 가능한 조건 확보
설계/선택(Key decisions)
- 실행 플랫폼: 트래픽 기반 스케일링을 위해
AWS Lambda 도입
- 제약 대응: 실행 시간 15분 제한을 해결하기 위해 분석 요청을 세그먼트로 분할한 뒤 결과를 수합
- 모니터링:
Amazon SNS + Slack으로 예외 알림
- 데이터 전달: 분석 데이터 전달 경로로
S3 선택
- 배포/의존성:
Lambda Layer로 모델/의존성 주입
결과(Impact)
- 비용 구조 개선: GPU 인스턴스 상시 구동을 제거해 비용이 트래픽에 비례하도록 전환
- 안정성 개선: 피크 트래픽 시 리소스 부족 예외를 해소
- 격리 효과: AI 프로세스 간 리소스 경합/결과 간섭을 완화