본문 바로가기
Project

[내배캠 데이터 3기]최종 프로젝트 계획안 작성

by DAkimble 2024. 9. 25.

1. 프로젝트 개요 및 목표

  • 전제 목표: "우리는 모두 커머스 분야 데이터 분석가로 취업을 목표로 하고 있으며, 최근의 구인 시장에 맞춰 가용한 자료와 기술을 활용해 최적의 포트폴리오를 완성하고자 합니다"

   1) 비즈니스 환경(자료, 기간에 따라 수정)

  • 글로벌 대표 커머스 기업인 아마존의 시장 점유율은 지난 10년 간 꾸준히 우상향하고 있지만 2022년경 특히 순이익과 주가에 있어 큰 낙폭을 겪었다 
  • 그 원인은 팬데믹 기간 막대한 지원금 등으로 오히려 폭증했던 수요와 이에 대한 과감한 투자 이후의 반동, 경쟁사 월마트의 성장 등으로 보인다. → 여기까지 21, 22, 23 데이터 내에서 확인
  • 하지만 그 후 현재까지 아마존이 다양한 지표에서 꾸준한 개선을 이룬 방안을 다양한 차원에서 살펴본다.
    (연도별 아마존 순이익 변화)  (이러한 프로젝트 목표가 괜찮은가? 기업들이 이런 조사를 요구하는가?)

 

  2) 목표 및 주제

  • 목표: 2022년 재무 위기 이후 아마존의 극복 방안 및 집중했던 상품 조사
  • 주제
    • (1안)아마존의 상품들에 대한 리뷰 분석 및 판매 개선방안 도출_PA
    • (2안)아마존 회사에 대한 고객 평가와 매출과의 연관 분석_BI
    • (3안)아마존 vs 경쟁사 매출양상 비교분석 및 연도별 미국 경제사정(CPI, 실업률 지수 등)에 따른 매출 변화_통계 분석 
    • 이상의 주제는 수집한 자료에 맞춰 유동적으로 선택, 변경 및 피드백한다.
  • 최종 산출물 형식: 태블로 대시보드+PPT(혹은 스토리 기능 활용)

 

  3) 데이터 소스(수집 목표)

  • 종류: -아마존 매출or유통 데이터(미국 대표 이커머스이며 자료 찾기가 용이) -한국 이커머스 데이터도 좋지만 사용 동의 주의
  • 세부종류: 판매 데이터, 리뷰 데이터, 상품 정보(상품 세부 설명, 입고-출고)
  • 시기: 5년 내 최근. 특히 22년 포함.
  • 크기: 최소 6만 행 이상. 1GB 이상 선호(비교적 큰 데이터 활용 자체도 경험
  • 내용: 거래 데이터(구매 내역, 주문 빈도),  고객 데이터(고객 별 구매, 앱 상호작용 패턴, 피드백 및 문의), 제품 데이터(설명, 카테고리, 가격, 이미지 데이터_좋은 자료가 있고 꼭 필요하다면) → 특히 고객 피드백, 상품 설명, 이미지 데이터 등은 크롤링 가능
  • 연관 데이터: CPI(소비자물가), 실업율 지수, 자료 동기 이커머스 주가 변동(경쟁사, ETF 등)
  • 수집처: Keggle, UC Irvine 데이터 저장소, 구글 데이터셋 서치,  프로젝트에서 튜터님 추천 사이트 모음, 아마존 투자자 사이트

 

  4)목표 핵심 지표

  • BI: 마진(특히 2022년 부터. 아마존은 지난 10년 간 시장 점유율, 매출 면에서 지속적인 성장세를 보였지만 순이익은 때로 부진), 세부 부문 시장 점유율(압도적인 시장 점유에도 몇몇 부문은 월마트 등에 추월됨), LTV, ARPU 등
  • PA: 주요 상품 매출 증가세, 상품 리뷰 평가 상승(별점 및 문자), 상품 평가의 매출 전환율
  • 모델: 모델 정확도, 실루엣 계수 등

 

   5) 일정

  • 타임라인: 9.25(오늘): 프로젝트 1차 계획안 완성 및 팀원 추가 모집  10.1(화): 프로젝트 발제  10.1(화) 10.4(금): 1주차 까지 EDA진행 및 데이터셋 확정  10.16(수): 3주차 절반까지 AI선택, 모델 정확도 확인, 관련 비즈니스 환경 조사  10.20(일): 주말까지 전체 결과 합산 및 해석, 태블로 초안 작성  10.24(목): 최초 태블로 프로토 타입 작성 및 PT녹화   10.25(금) : 프로젝트 중간 발표회  피드백 수용 후 고도화 방안 조사   11.4(월): 최종 프로젝트 발표회 (자세한 내용은 일정표 참조)

 

2. 팀 역할 및 책임

  1) 각 팀원 담당 및 특기

  • 호연(PM): 일정 관리, 작성 및 (팀원 및 튜터님과)커뮤니케이션 조정. ERD작성, 군집 운용, (딥러닝&크롤링 학습)
  • 용진(발표): 발표자료 관리 및 발표문 작성 등. 데이터 수집 관리. EDA 및 아이디어 제시 
  • 준영(DS): 프로젝트에 필요한 기술 문제 전반 관리, 피그마 대시보드 작성. 회귀 운용, (딥러닝 학습중)
  • 태우(DS): 수학과. 인사,총무, 시계열 분석, 예측 
  • 혜지(마케팅): 마케팅 및 뷰티 도메인. PPT 작성

 

  2) 역할 갭

  • 통계: 데이터 분석 전 과정에서 통계적 지식 및 기법 활용
  • 도메인 및 비즈니스 환경 지식: 커머스 비즈니스 통찰력을 바탕으로 분석 방향 제시 및 결과 해석, 인사이트 도출
  • ETL: 추출, 변환, 로드 거쳐 데이터 정리
  • 머신/딥러닝 지식: 자료형태와 분석방향에 맞는 모델 제시 및 활용 함께 공부 가능
  • PPT 등 디자인 능력: 뷰어의 요구에 부합하는 발표자료 작성 대시보드는 준영님

 

 

3. 리소스, 도구 및 예산

  1) 컴퓨팅 리소스

  • (호연)MacBook Air 2022년형, (준영)ASUS 젠북 듀오14 i5 512GB, (용진)DESKTOP-64EU048 프로세서 AMD Ryzen 5 7500F 6-Core Processor, (혜지)MacBookAir10,1, (태우)MacBook Air 2022년형

 

  2) 사용 예정 도구

  • Jupyter Notebook, 딥 러닝 라이브러리, Google API 등, 슬랙(커뮤니케이션), 노션(결과물 공유 및 코드&문서화 표준), (GIthub, Trello, Jira, Asana 등 필요?)
  • 도구 요구사항
    • 실용성: 가능한 현업에서 이용하며 유용하다고 판명된 개발 도구를 이용할 것
    • 정합성: '최신성' 보다도 '정합성'. 이 자료와 분석 방향에 최적의 도구인지 자문할 것
    • 이해력 및 숙련도: 이 과정 전반과 함께 용어들에 대해 스스로 설명할 수 있도록 꾸준한 공부 및 정리할 것.

 

  3) 예산 계획

  • 필요한 리소스(데이터 구매 비용, 클라우드 인프라, 소프트웨어 라이선스 등)에 비용이 들어간다면 이후 함께 정산

 

4. 위험 평가 및 비상 계획

  1) 잠재적 위험 파악

  • 전체: 기술적 지식 및 능력 전반을 공부해가야 함
  • 호연: 개인 프로젝트(데이터 분석 관련. 크롤링 공부&이용중)도 진행중
  • 각자 사정에 따라 추가

 

  2) 완화 전략

  • 준영님 주도로 필요한 지식을 선별해서 주어진 시간 내에 함께 스터디, 빠르게 습득 /  호연 프로젝트는 최종 프로젝트에 방해가 되지 않도록 하며 그에 주어지는 지원금 및 공부 내용을 내배캠 프로젝트에 잘 적용하도록 한다.

  3) 기타 고려 사항

 

  • 데이터 개인 정보 보호 : 자료 수집 중 정보 수집 정책 고려. 크롤링은 각 웹페이지 로봇 txt 준수가 1 원칙
  • 데이터 편향 : EDA에서 확인. 특히 고객 세분화나 추천 시스템에서 모델이 기존 편향을 강화하지 않도록 주의
  • 공정성 : 모델이나 분석 결과 전반이 누군가에게 피해를 주거나 비윤리적이지 않은지 성찰

 

5. 비즈니스  문제 정의 및 세분화

  1) 사업 문제

  • 2022년 이후 마진 적자 원인과 회복 방안 

  2) 세부 사항

  • 고객 세분화 : RFM, 행동, 선호도, 구매 패턴을 기준으로 그룹화가 잘 되어 있는가?
  • 추천 시스템 : 사용자 특성과 취향에 따라 개인화된 제품을 제안하고 있는가? 
  • 판매 예측 : 과거 데이터를 사용하여 미래의 판매가 잘 예측되고 있는가?
  • 동적 가격 책정 : 수요, 경쟁, 고객 세그먼트에 따라 실시간으로 적절하게 가격이 조정되는가?
  • 이탈 예측 : 플랫폼을 떠날 위험이 있는 고객을 식별하고 묶어두는 마케팅을 하는가?

 

6.  데이터 이해(자세한 내용은 데이터 확정 후 작성)

  1) 데이터 유형

  • 거래 데이터 : 구매 내역, 주문 빈도
  • 고객 데이터 : 인구 통계, 검색 기록, 상호작용 패턴
  • 제품 데이터 : 설명, 카테고리, 가격.
  • 텍스트 데이터: 리뷰

  2) 데이터 품질 : 

 

7. 활용 도구(데이터 확정 후 작성)

  • 제시된 추천 도구들을 대략적으로 인식하고 수집된 자료에 필요한 도구를 선정해 필요하면 학습을 거쳐 적용하도록 한다

  1) 데이터 수집 및 저장

  • AWS(아마존 웹 서비스) :
    • Amazon S3(Simple Storage Service) : 대용량 데이터 세트를 클라우드에 안전하게 저장(우리 안열리는 데이터에 적용?)
    • Amazon Redshift : 대규모 데이터 세트에 대한 빠른 쿼리를 가능하게 하는 클라우드 기반 데이터웨어하우스.(" ")
    • AWS Glue : 데이터 통합 및 ETL(추출, 변환, 로드) 프로세스용. 특히 Amazon 상용 데이터 변환, 정리에 유용
  • Python 라이브러리 :
    • Scrapy : 웹사이트에서 데이터를 추출하는 웹 스크래핑 라이브러리 Selenium : API 사용 불가 시 웹에서 데이터 수집, 자동화

 

  2) 데이터 정리 및 변환

  • Pandas, NumPy : 행렬 데이터 조작
  • PySpark(Python + Apache Spark): 대규모 데이터 조작

 

  3) 데이터 분석 및 통계 모델링

  • SciPy : 통계 분석 시 가설 검정, 회귀 분석 및 기타 통계 툴
  • StatsModels : 통계적 테스트 수행, 예측 모델 구축. 특히 시계열 분석에 적절한 툴. 
  • SQL : 대규모 데이터 쿼리에 최적화 

 

   4) 머신러닝 및 예측 분석

  • Scikit-Learn : 분류, 회귀, 군집, 차원 감소 등 파이썬 머신 러닝 라이브러리
  • XGBoost : 구조화되고 표 형식인 데이터에 적합한 매우 효율적이고 유연한 그래디언트 부스팅 알고리즘
  • TensorFlowPyTorch : Amazon 상업 프로젝트에 딥 러닝 작업(예: 추천, 고객 세분화)이 포함되어 있는 경우, TensorFlow와 PyTorch가 가장 적합한 딥 러닝 라이브러리
  • Amazon SageMaker : AWS의 머신 러닝 플랫폼으로, 머신 러닝 모델을 대규모로 빌드, 트레이닝, 배포할 수 있다. 사전 빌드된 모델을 사용하거나 대규모 데이터 세트에서 직접 트레이닝도 가능.

 

   5) 시계열 분석

  • Prophet: 시계열 예측 도구. 상업 데이터의 판매 추세, 수요 또는 계절성 예측하는 활용. 노이즈의 영향을 덜 받음. 
  • ARIMA / SARIMA(StatsModels 사용) 

 

   6) 데이터 시각화

  • Tableau : 대표적 BI 툴
  • Matplotlib & Seaborn : Python에서 정적, 애니메이션 및 대화형 시각화를 만드는 라이브러리.
  • Plotly : 대화형 플롯을 위한 Python 라이브러리. 온라인에서 다른 사람들과 공유할 수 있는 대시보드를 만드는 데 적절.

 

   7) 데이터 처리 및 파이프라인

  • Apache Airflow : 자동화된 워크플로 및 파이프라인을 만드는 데 사용. Amazon 데이터 추출, 변환, 추가 분석 작업 예약
  • AWS Data Pipeline : AWS의 데이터 워크플로 자동화 도구. Amazon 클라우드 서비스를 사용하는 경우에 이상적.

 

   8) 자연어 처리(NLP) (텍스트 기반 리뷰, 제품 설명 등을 분석하는 경우)

  • NLTK(Python) 
  • SpaCy : NLTK보다 빠름. Amazon 리뷰나 고객 피드백과 같은 대량의 텍스트 데이터를 처리하는 데 적합.
  • BERT/Transformers(Hugging Face 라이브러리): 제품 리뷰에 대한 감정 분석 등 고급 NLP 작업에 적합.

 

9) 협업 및 버전 제어

  • GitHub/GitLab : 버전 컨트롤. 프로젝트에서 팀원과 협업 중 변경 사항 관리, 추적에 이용 
  • Jupyter Notebooks 

 

10) Amazon 상업 데이터 프로젝트 워크플로:

  • 데이터 수집 : AWS S3, API 또는 Scrapy를 사용하여 Amazon 데이터를 스크래핑
  • 데이터 저장 : 쉽게 액세스할 수 있도록 Amazon Redshift 또는 S3에 데이터를 저장
  • 데이터 정리 및 변환 : Pandas, PySpark 또는 AWS Glue를 사용해 데이터를 변환, 정리
  • 데이터 분석 : Scikit-learn, StatsModels, XGBoost 등
  • 시계열 예측 : Prophet, ARIMA를 사용해 추세를 예측
  • 시각화 : Tableau를 사용해 인사이트 시각화
  • 자동화 : Apache Airflow 또는 AWS Data Pipeline을 사용해워크플로를 자동화

 


8.  기본 계획 개요

  • 목표 :  2022년 재무 위기 이후 아마존의 극복 방안 및 집중했던 상품 조사
  • 팀 평가 :   데이터 엔지니어, 딥러닝 전문가 필요성).
  • 도구 및 리소스 : 딥 러닝 환경, 컴퓨팅 리소스, 데이터 저장 솔루션을 설정합니다.
  • 채용 계획 : 필요한 역할(데이터 엔지니어, 딥러닝 전문가)을 정의하고, 직무 설명을 작성하고, LinkedIn을 통해 연락합니다.
  • 프로젝트 타임라인 : 데이터 수집, 모델 훈련, 프로토타입 개발을 위한 기본 타임라인과 주요 이정표를 개발합니다.
  • 예산 : 클라우드 컴퓨팅 비용, 소프트웨어 라이선스, 채용 비용을 계획하세요.
  • 커뮤니케이션 및 협업 : 커뮤니케이션을 위해 Slack을 설정하고 프로젝트 추적을 위해 Jira를 설정합니다.

 

9. 공유 자료

  • 준영님이 메일 등으로 보내는 자료들 숙지할 것