대학 때 겉핥기로 배우고 본격적으로 다시 배우는 데이터 분석.

복습하지 않으면 정말 큰일날 것 같다.


데이터의 종류

정형 데이터

  • 특정한 구조를 가진 데이터
  • 행과 열의 표 형태로 저장 가능한 형태(엑셀, CSV 등)

비정형 데이터

  • 고정된 구조가 없음
  • 언어, 이미지, 영상, 음성 등

 

데이터 과학

비즈니스에서 의미 있는 결과를 추출하기 위해 수학, 통계, 컴퓨터 공학 등을 결합하여 데이터를 연구하는 것

  • 데이터 : 단순히 숫자나 어떠한 사실을 담은 자료 (ex. 20대 한국인들의 키)
  • 정보 : 데이터로부터 유의미한 지식이나 결과를 도출한 것 (ex. 20대 평균 키가 얼마인 것에 대한 영양학적 접근)

 

데이터 분석

원시 데이터를 의미 있는 결과로 변환하여 의사 결정이나 비즈니스에 활용 가능케 하는 것

  • 의사 결정에 과학적이고 객관성 있는 근거 부여
  • 트렌드를 빠르게 파악하고 대응 가능
  • 고객 수요 발굴을 통해 비즈니스 기회 창출
  • 모니터링과 예측을 통한 잠재적 위험 관리

※ 프로젝트에서 반드시 선행되어야 하는 단계

 

데이터 분석 프로세스

1. 비즈니스 이해 : 프로젝트 목표와 요구사항 정의

  • 데이터 분석가는 해당 도메인의 실무자가 아님
  • 실무자와의 협업을 통해 해당 도메인에 대한 이해 습득

2. 데이터 이해 : 프로젝트에 사용될 데이터를 이해

  • 앞선 이해를 기반으로 데이터 파악
  • 데이터의 수치가 의미하는 것, 이상치 및 누락값 등 파악

3. 데이터 준비 : 분석에 적합한 형태로 데이터 가공

  • 필요에 따라 정리, 변환, 통합 등
  • 분석에 바로 사용 가능한 데이터셋 생성

4. 모델링 : 데이터에 적합한 모델 선택 및 학습

  • 모델 선택에는 프로젝트에 대한 이해와 선택의 필요성이 반드시 있어야 함

5. 평가 : 모델의 성능과 비즈니스 목표 적합성 평가

 

6. 배포 : 실제 비즈니스 환경에 적용

'Python' 카테고리의 다른 글

[DA] NumPy 배열 인덱싱 & 슬라이싱  (0) 2025.09.09
[DA] NumPy 입문  (0) 2025.09.08
[Python] Streamlit으로 페이지 만들어보기  (0) 2025.08.31
[Python] 모듈이란?  (0) 2025.08.26
[Python] 파이썬 가상환경 구축하기  (0) 2025.08.24

+ Recent posts