람다 기반 AI 서버 도입 | 라도훈 - 백엔드 개발자

프로젝트 요약

한 줄 요약: 상시 GPU 인스턴스 대신 Lambda로 AI 분석을 실행해 트래픽 기반 스케일링과 비용 최적화를 달성했습니다.
진행/소속: 파트타임스터디
키워드: AWS Lambda, S3, SNS, Slack, Lambda Layer

문제(AS-IS)

GPU 기반 인스턴스 상시 구동으로 비용이 고정적으로 높음
한정된 리소스로 AI 프로세스 간 결과 간섭(리소스 경합)이 발생
피크 트래픽 시 리소스 부족 예외가 발생

목표(TO-BE)

트래픽에 따라 스케일링되는 AI 실행 환경 구축
협업사에서 CPU 기반 AI 코드 전달로 Lambda 전환 가능한 조건 확보

설계/선택(Key decisions)

실행 플랫폼: 트래픽 기반 스케일링을 위해 AWS Lambda 도입
제약 대응: 실행 시간 15분 제한을 해결하기 위해 분석 요청을 세그먼트로 분할한 뒤 결과를 수합
모니터링: Amazon SNS + Slack으로 예외 알림
데이터 전달: 분석 데이터 전달 경로로 S3 선택
배포/의존성: Lambda Layer로 모델/의존성 주입

결과(Impact)

비용 구조 개선: GPU 인스턴스 상시 구동을 제거해 비용이 트래픽에 비례하도록 전환
안정성 개선: 피크 트래픽 시 리소스 부족 예외를 해소
격리 효과: AI 프로세스 간 리소스 경합/결과 간섭을 완화

어떠한 날카로운 피드백이더라도 환영합니다. 사소한 의견도 괜찮습니다.

citron0137@gmail.com 또는 LinkedIn 을 통해 피드백을 보내주세요.