본문 바로가기
Database/데이터분석

[R] R기초_R을 이용한 데이터 분석기초

by JINJINC 2026. 4. 9.
728x90
반응형

 

1. R을 이용한 데이터 분석 기초

 

1) 데이터 사이언스란?

=> 통계학, 컴퓨터 공학, 도메인 지식을 활용해 방대한 데이터에서 인사이트를 추출하고, 이를 기반으로 문제 해결 및 의사결정을 지원하는 학제간 연구 분야입니다. 데이터 수집, 전처리, 분석, 시각화, 머신러닝/딥러닝 모델 개발을 통해 미래를 예측하거나 현상을 객관적으로 이해하는 것이 주된 목적

즉, 데이터를 수집하고 분석하고 활용하기 위한 모든 기술의 집합

 

이 데이터 사이언스를 하려면 필요한 것은 무엇일까? 여러 데이터들이 존재하겠지만 정제된 데이터가 필요합니다.

사진이 있지만 정제되지 않은 사진으로만 딥러닝 시킬땐, 인식률이 현저하게 떨어지게됩니다. 

 

데이터사이언티스트란? 

정제된 데이터를 수집을 잘 할 수 있는것이 데이터 사이언티스트의 역할 중 하나이다.

 

2) 데이터 분석

 

입력데이터가 주어졌을 때? 

- 데이터 간의 상관관계 파악

- 파악된 관계를 이용하여 원하는 출력 데이터를 예측(prediction)

데이터 간의 연관된 관계를 파악하여 

 

지금 가지고 있는 머신러닝의 한계 => 유한하지 않은 데이터에 대한 해답에 대한 정확도가 떨어진다.

 

 

분석의 목적에 따라

- 예측(prediction)

- 분류(clustering)

- 모사(approximation)

 

데이터 분석을 하기위해서는 목적을 정의하는 것 부터 시작해야한다.

 

 

3) 데이터 분석의 예

Black Box functionality

 

y=f(x)

- 부동산의 위치, 주거환경, 건축연도 등 입력시 해당 부동산의 가치 측정

- 꽃잎의 길이와 너비 등 식물의 외형적 특징 입력시 식물의 종 분류

- 얼굴 사진 입력시 해당 사람의 이름 출력

- 현재 바둑돌의 위치를 입력하여 다음 바둑돌의 위치 지정

 

 

4) 입력 데이터와 출력데이터

입력데이터(input data)

- X, 독립변수(independent variable), 특징(feature), 설명변수(explanatory variable), descriptor

독립변수(independent variable) : 다른것에 영향을 주지 않는 변수,환경 (= 특징) 

 

출력 데이터(Output data)

- Y, 종속변수(dependent variable), label, class

 

=> 즉, 입력 데이터와 출력 데이터를 정확히 파악하는 것이 예측 문제를 구체화하는 첫 단계이자 가장 중요한 부분 중 하나.

 

5) 입력 데이터와 출력데이터의 예

 

입력의 정도까지 파악해야함

 

Airfoil( 항공기 날개, 프로펠러, 터빈 블레이드 등의 단면 형상) data prediction

X : thickness, Umach , AOA, RE

y: Cl, Cdt, Cdp, Cdf, Cm

 

Cl 을 예측하는 모델을 만들고 싶다면? 

input으로 들어가는 값으로 계산할 수 있으려면 계산식은 어떻게 될까? 

이런 관계를 찾아내는것이 상관관계를 찾아내는 것들이다.

 

H(X) = w1x1 + w2x2 + w3x3 + w4x4 .... +b 

 

상관관계 값을 찾을 수 있는 알고리즘에 input 값을 넣었을때, w값과 b값을 찾을 수 있어야 한다.

 

728x90
반응형

'Database > 데이터분석' 카테고리의 다른 글

[R언어] R 언어 시작하기  (3) 2025.07.23

댓글