1. R을 이용한 데이터 분석 기초
1) 데이터 사이언스란?
=> 통계학, 컴퓨터 공학, 도메인 지식을 활용해 방대한 데이터에서 인사이트를 추출하고, 이를 기반으로 문제 해결 및 의사결정을 지원하는 학제간 연구 분야입니다. 데이터 수집, 전처리, 분석, 시각화, 머신러닝/딥러닝 모델 개발을 통해 미래를 예측하거나 현상을 객관적으로 이해하는 것이 주된 목적
즉, 데이터를 수집하고 분석하고 활용하기 위한 모든 기술의 집합
이 데이터 사이언스를 하려면 필요한 것은 무엇일까? 여러 데이터들이 존재하겠지만 정제된 데이터가 필요합니다.
사진이 있지만 정제되지 않은 사진으로만 딥러닝 시킬땐, 인식률이 현저하게 떨어지게됩니다.
데이터사이언티스트란?
정제된 데이터를 수집을 잘 할 수 있는것이 데이터 사이언티스트의 역할 중 하나이다.
2) 데이터 분석
입력데이터가 주어졌을 때?
- 데이터 간의 상관관계 파악
- 파악된 관계를 이용하여 원하는 출력 데이터를 예측(prediction)
데이터 간의 연관된 관계를 파악하여
지금 가지고 있는 머신러닝의 한계 => 유한하지 않은 데이터에 대한 해답에 대한 정확도가 떨어진다.
분석의 목적에 따라
- 예측(prediction)
- 분류(clustering)
- 모사(approximation)
데이터 분석을 하기위해서는 목적을 정의하는 것 부터 시작해야한다.
3) 데이터 분석의 예
Black Box functionality
y=f(x)
- 부동산의 위치, 주거환경, 건축연도 등 입력시 해당 부동산의 가치 측정
- 꽃잎의 길이와 너비 등 식물의 외형적 특징 입력시 식물의 종 분류
- 얼굴 사진 입력시 해당 사람의 이름 출력
- 현재 바둑돌의 위치를 입력하여 다음 바둑돌의 위치 지정
4) 입력 데이터와 출력데이터
입력데이터(input data)
- X, 독립변수(independent variable), 특징(feature), 설명변수(explanatory variable), descriptor
독립변수(independent variable) : 다른것에 영향을 주지 않는 변수,환경 (= 특징)
출력 데이터(Output data)
- Y, 종속변수(dependent variable), label, class
=> 즉, 입력 데이터와 출력 데이터를 정확히 파악하는 것이 예측 문제를 구체화하는 첫 단계이자 가장 중요한 부분 중 하나.
5) 입력 데이터와 출력데이터의 예
입력의 정도까지 파악해야함
Airfoil( 항공기 날개, 프로펠러, 터빈 블레이드 등의 단면 형상) data prediction
X : thickness, Umach , AOA, RE
y: Cl, Cdt, Cdp, Cdf, Cm
Cl 을 예측하는 모델을 만들고 싶다면?
input으로 들어가는 값으로 계산할 수 있으려면 계산식은 어떻게 될까?
이런 관계를 찾아내는것이 상관관계를 찾아내는 것들이다.
H(X) = w1x1 + w2x2 + w3x3 + w4x4 .... +b
상관관계 값을 찾을 수 있는 알고리즘에 input 값을 넣었을때, w값과 b값을 찾을 수 있어야 한다.
'Database > 데이터분석' 카테고리의 다른 글
| [R언어] R 언어 시작하기 (3) | 2025.07.23 |
|---|
댓글