대학 때 겉핥기로 배우고 본격적으로 다시 배우는 데이터 분석.
복습하지 않으면 정말 큰일날 것 같다.
데이터의 종류
정형 데이터
- 특정한 구조를 가진 데이터
- 행과 열의 표 형태로 저장 가능한 형태(엑셀, CSV 등)
비정형 데이터
- 고정된 구조가 없음
- 언어, 이미지, 영상, 음성 등
데이터 과학
비즈니스에서 의미 있는 결과를 추출하기 위해 수학, 통계, 컴퓨터 공학 등을 결합하여 데이터를 연구하는 것
- 데이터 : 단순히 숫자나 어떠한 사실을 담은 자료 (ex. 20대 한국인들의 키)
- 정보 : 데이터로부터 유의미한 지식이나 결과를 도출한 것 (ex. 20대 평균 키가 얼마인 것에 대한 영양학적 접근)
데이터 분석
원시 데이터를 의미 있는 결과로 변환하여 의사 결정이나 비즈니스에 활용 가능케 하는 것
- 의사 결정에 과학적이고 객관성 있는 근거 부여
- 트렌드를 빠르게 파악하고 대응 가능
- 고객 수요 발굴을 통해 비즈니스 기회 창출
- 모니터링과 예측을 통한 잠재적 위험 관리
※ 프로젝트에서 반드시 선행되어야 하는 단계
데이터 분석 프로세스
1. 비즈니스 이해 : 프로젝트 목표와 요구사항 정의
- 데이터 분석가는 해당 도메인의 실무자가 아님
- 실무자와의 협업을 통해 해당 도메인에 대한 이해 습득
2. 데이터 이해 : 프로젝트에 사용될 데이터를 이해
- 앞선 이해를 기반으로 데이터 파악
- 데이터의 수치가 의미하는 것, 이상치 및 누락값 등 파악
3. 데이터 준비 : 분석에 적합한 형태로 데이터 가공
- 필요에 따라 정리, 변환, 통합 등
- 분석에 바로 사용 가능한 데이터셋 생성
4. 모델링 : 데이터에 적합한 모델 선택 및 학습
- 모델 선택에는 프로젝트에 대한 이해와 선택의 필요성이 반드시 있어야 함
5. 평가 : 모델의 성능과 비즈니스 목표 적합성 평가
6. 배포 : 실제 비즈니스 환경에 적용
'Python' 카테고리의 다른 글
| [DA] NumPy 배열 인덱싱 & 슬라이싱 (0) | 2025.09.09 |
|---|---|
| [DA] NumPy 입문 (0) | 2025.09.08 |
| [Python] Streamlit으로 페이지 만들어보기 (0) | 2025.08.31 |
| [Python] 모듈이란? (0) | 2025.08.26 |
| [Python] 파이썬 가상환경 구축하기 (0) | 2025.08.24 |