본문 바로가기

Supervised learning

Machine learning은 크게 Supervised learning과 Unsupervised learning의 두 가지로 분류된다.

여기서는 Supervised learning을 살펴보자.

 

Supervised learning(지도 학습)

어떤 input과 그에 대응하는 'label'이 있는 dataset에 대해 학습하는 경우.

여기서 label이란 input에 해당하는 '정답'을 의미한다.

예를 들어 사과 이미지가 input으로 주어지면,  그에 해당하는 label은 '사과'가 된다.

따라서 기계는 그 이미지를 사과로 학습하게 된다.

 

Supervise learning은 output의 연속성에 따라 regression(회귀) 문제와  classification(분류) 문제로 나뉜다.

연속이면 regression problem, 이산이면 classification problem이라고 한다.

 

Regression

output이 연속이면 regression이다. 주의할 점은 여기서의 연속은 수학에서 말하는 실수의 연속과 조금 다르다는 것이다.

수학에서 실수의 연속성은 간단히 말하면 "빈틈이 없음"을 의미한다(그래서 완비성이라고도 한다). 

여기서 말하는 연속은 '값의 연속'보다는 '범위의 연속' 또는 '구간의 연속'이라고 보는 게 맞을 것이다.

 

supervised learning을 통해 집의 평 수에 따른 집값을 예측한다고 해보자. 그렇다면 input은 '집의 넓이'이고 output은 '그 집의 값'이 될 것이다. 집값의 범위는 열린 구간 (-∞, +∞)(엄밀히 말하면 (0, +∞)), 즉 '끊긴 구간'이 없다. 여기서는 이러한 의미로 '연속(continuous)'이라고 한 것이다. 

 

 

Classification

Classification의 output은 이산 값을 갖는다. 말 그대로 '분류'기 때문에 output은 '이거 아님 저거'라는 식이다. 강의에서는 종양이 악성인지 양성인지 분류하는 것을 예시로 들었다.

 

A는 악성일까 양성일까?

 

 

이 문제는 input(크기)이 주어지고 그에 해당하는 label(악성/양성)도 같이 주어지므로 Supervise learning에 해당한다.

또한 output은 '악성 아님 양성'으로 이산값이므로 classification 문제라고 할 수 있겠다.

 

사실 종양 크기만으로는 당연히 양성인지 악성인지 판별하기가 힘들 것이다. 종양의 크기가 작아도 환자의 나이가 많다면 악성일 수 있다. input에 나이를 추가해보자.

 

초록색 선 위는 악성, 아래는 양성일 확률이 높다고 예측할 수 있다.

 

이외에도 여러 가지 요인을 고려해 악성 종양인지 양성 종양인지 결정하도록 할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'Machine Learning > Machine Learning' 카테고리의 다른 글

Feature scaling  (0) 2021.02.22
Gradient descent for linear regression  (0) 2021.02.21
Gradient descent  (0) 2021.02.21
가설과 비용함수  (0) 2021.02.20
Unsupervised learning  (0) 2020.12.20