본문 바로가기

방송통신대 컴퓨터과학과

인공지능 11강 (기계학습)

728x90
학습개요
  1. 이번 시간에는 입력 데이터와 출력 데이터 사이의 선형 관계를 학습하는 방법, 입력 데이터를 미리 정해놓은 2개 이상의 클래스로 식별하기 위한 학습 방법에 대하여 살펴보려고 한다. 학습 결과가 학습표본 집합에 대한 비용함수가 최소가 되도록 경사하강법을 활용하는데, 기계학습에 특별히 관심이 있는 학습자는 수식의 유도과정을 모두 이해해야 할 것이고, 전반적 개념을 얻고자 하는 학습자는 비용을 나타내는 수식의 의미, 경사하강법 적용 과정의 개념을 중심으로 학습한다. 또한 라벨이 부여되지 않은 학습표본 집합을 군집화 하기 위한 k-평균 군집화 알고리즘의 개념을 학습한다. 학습 내용에 대한 실습을 원하는 경우 추가로 제공한 실습 안내를 참고하여 시도하여 보기 바란다.
 학습목표
  1. 경사하강법의 개념을 설명할 수 있다.
  2. 선형 관계의 학습을 설명할 수 있다.
  3. 유형을 식별하기 위한 학습을 설명할 수 있다.
  4. k-평균 군집화를 설명할 수 있다.
 주요용어
  1. 회귀분석(regression analysis) : 독립변수와 종속변수 사이의 상관관계를 추정하는 통계적 기법
  2. 선형회귀(linear regression) : 독립변수와 종속변수 사이의 상관관계를 선형함수로 모델링하는 것
  3. 평균제곱오차(mean squared error) : 실제값과 예측값 사이의 오차를 제곱한 값의 평균
  4. 로지스틱 회귀(logistic regression) : 회귀분석 기법 중 종속변수가 0 또는 1, 참 또는 거짓 등 범주로 구분하기 위한 방법
  5. 다항 로지스틱 회귀(multinomial logistic regression) : 3개 이상의 클래스를 식별하기 위한 로지스틱 회귀
  6. 군집화 : 패턴 집합이 주어졌을 때, 같은 종류라고 생각할 수 있는 몇 개의 서브클래스로 분할하는 것
  7. k-평균 군집화 : k개의 평균벡터를 임의 위치로부터 시작하여 학습표본 집합을 이용하여 반복적으로 업데이트함으로써 학습표본 집합을 대표하는 평균벡터를 만들어 내는 군집화 방법
정리하기
  1. 선형회귀는 독립변수와 종속변수의 관계를 선형함수로 모델링한다. 이를 위해 평균제곱오차(MSE)를 비용함수로 하여 경사하강법으로 선형함수의 계수를 조금씩 변화시키는 과정을 반복한다.
  2. 로지스틱 회귀는 독립변수의 값에 대해 종속변수가 0과 1 사이의 값을 낼 수 있는 가설을 구한다. 로지스틱 회귀를 위한 가설은 선형함수를 로지스틱 함수에 넣어 0과 1 사이의 값을 갖도록 하며, 교차 엔트로피를 비용함수로 하여 경사하강법을 적용함으로써 가설을 학습한다. 학습 결과는 선형 결정경계를 형성한다.
  3. 다항 로지스틱 회귀는 식별하려는 클래스가 3개 이상인 경우 사용할 수 있다. N개의 클래스에 대해 학습된 선형 판별함수에 소프트맥스 함수를 적용하여 각 클래스별로 0과 1 사이의 값을 구하며, 그중 가장 큰 값을 갖는 클래스로 분류할 수 있도록 가설을 학습한다. 교차 엔트로피를 비용함수로 사용하며, 경사하강법으로 비용함수가 최소화되도록 가설을 학습한다.
  4. 군집화는 주어진 표본을 몇 개의 연관된 군집으로 분할하는 것으로 자율학습 방식으로 학습한다.
  5. k-평균 군집화는 표본집합을 대표하는 k개의 평균벡터를 찾는다. k개의 평균벡터의 초기 추정치로 임의의 값을 부여한 다음, 학습표본 집합 내의 각각의 학습표본을 이 평균벡터 중 가장 가까운 것으로 분류한다. 그 다음 각각의 평균벡터에 대해 그 평균벡터와 가장 가까운 것으로 분류된 학습표본들의 평균을 구하고, 이 값으로 그 평균벡터를 업데이트한다. 이 과정을 평균벡터가 적절한 위치에 수렴할 때까지 반복한다.