랜덤 포리스트(Random Forest) [정의] 의사결정나무의앙상블모형으로여러개의의사결정나무를분류또는평균내예측하는분석기법
[특징] 각나무별분산높음, 랜덤 selection of feature set, 투표, 과적합예방
[활용] 검출, 분류, 회귀
[기법] 배깅을이용한 forest 구성(데이터집합생성, 훈련, 선형결합)
임의노드최적화(randomized node optimization)
[중요매개변수] forest 크기, 최대허용깊이, 임의성정도
배깅(부스팅+보팅)
랜덤 셀랙션
의사결정 나무

 
 
토픽 이름() Random Forest
분류 데이터베이스 > Big Data > Random Forest
키워드(암기) Bagging 트리 생성시 Random Subset of Features 사용하는 방식을 추가하는 분석기법, 임의 최적 노드, 배깅, 결정 트리, 정규화 랜덤 포레스트, 앙상블, 선형결합
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 빅데이터 분석기법인 Random Forest에 대해 설명하시오. 관리1101교시
2 10. 랜덤 포레스트(Random Forest) 대해 설명하시오. 합숙18.01.공통.Day-1

 

  1. Subset 특성을 모델에 반영하는 빅데이터 분석기법, Random Forest의 개요

 

  1. Random Forest 사용 기법
기법 내용
앙상블 학습
  1. 주어진 데이터로부터 여러 개의 모델을 학습한 다음, 예측 여러 모델의 예측 결과들을 종합하여 정확도를 높이는 기법으로써, 여러 개의 의사결정트리를 만들고 투표하여 다수결로 결과를 결정하는 방법
배깅(Bagging)
  1. 주어진 데이터에 대해 여러 개의 부트스트랩(bootstrap) 데이터를 생성하고 예측모형을 만든 결합하여 최종 예측모형을 만드는 방법

 

  1. Random Forest 부각배경
배경 내용
의사결정트리의
한계존재
  1. 결과 또는 성능의 변동폭이 크다는 문제 및 학습데이터에 따라 생성되는 결정트리가 크게 달라져 일반화하기 어려운 과적합(overfitting)문제
  2. 계층적 접근방식으로서 중간에 에러발생 시 다음단계로 에러가 전파
과적합 문제
극복필요
  1. 임의화 기술을 통해 각 일반화 성능을 향상시켜 과적합문제 극복의 필요
  • Random Forest 경우 트리들의 편향은 그대로 유지가 되면서, 분산은 감소하기 때문에 보다 안정적(일반화) 이며 정확도 성능이 향상
    ※ 과적합
    (overfitting)문제: 감독학습(Supervised Learning)에서 과거의 학습데이터에 대해서는 잘 예측하지만 새로 들어온 데이터에 대해서 성능이 떨어져서 일반화가 어려운 문제

 

  1. Random Forest 특징
      1. 임의성(randomness) 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성
      2. 각 트리들의 예측(Prediction)들에 대한 비상관화(decorrelation)
      3. 일반화 성능의 향상 및 노이즈(noise) 강함
      4. 임의화를 통한 과적합(overfitting)문제를 극복

 

  1. Random Forest의 주요기법
      1. 배깅(bagging) 이용한 forest 구성
        1. 부트스트랩(bootstrap) 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기(base learner)들을 결합(aggregating)시키는 방법
단계 내용
데이터집합생성
  1. 부트스트랩(bootstrap) 통해 T개의 훈련데이터 집합 생성
훈련
  1. T개의 기초분류기(tree)들을 훈련시킨다
결합
  1. 기초분류기(tree)들을 하나의 분류기(random forest) 결합(평균 또는 과반수투표 방식 이용)

  • 배깅(bagging) 이용해 T개의 결정 트리들로 구성된 Random Forest 학습하는 과정

 

[간단한 개념도]

  1. 임의노드 최적화(randomized node optimization)
    • 분석에 사용되는 변수를 랜덤하게 추출하는 것으로써, 훈련단계에서 훈련목적함수를 최대로 만드는 노드분할 함수의 매개변수 θ 최적값을 구하는 과정
    • , 분석을 위해 준비된 데이터로 부터 임의복원추출을 통해 여러 개의 학습데이터를 추출하고 각각 개별학습을 시켜 트리를 생성하여 투표 또는 확률 등을 이용하여 최종목표변수를 예측
 

  1. 중요 매개변수
구성요소 내용
forest의 크기
  1. forest 개의 트리로 구성할 지를 결정하는 매개변수
  2. forest 작으면 트리들의 구성 및 테스트 시간이 짧은 대신, 일반화 능력이 떨어지는 반면, forest 크기가 크다면 훈련과 테스트 시간은 증가하지만 forest 결과값의 정확성/일반화 능력이 우수
최대 허용 깊이
  1. 하나의 트리에서 루트 노드부터 종단 노드까지 최대 몇 개의 노드(테스트)를 거칠 것인지를 결정하는 매개변수
  2. 최대 허용 깊이가 작으면 과소적합(underfitting) 발생, 최대 허용 깊이가 크면 과대적합(overfitting) 일어나기 때문에 적절한 설정필요
임의성 정도 임의성의 정도에 따라 비상관화 수준의 결정

 

  1. Random Forest의 응용사례
사례 내용
키넥트에서의 신체 트랙킹 엑스박스 360에서 사용되는 모션 캡처 주변기기인 키넥트에서는 random forest 이용하여 주어진 입력에서 신체의 부분을 분류
컴퓨터 단층촬영에서의 해부학 구조 분석 3차원 컴퓨터 단층촬영 영상(Computed Tomography, CT) 내에서 주어진 복셀에 대해 해당되는 해부학구조가 어디인지 검출하고 해당 위치를 파악
다채널 자기공명영상 분석 브라운대학, 캠브리지대학 등에서 다채널 자기공명영상(Multi-channel Magnetic resonance image)으로 촬영된 영상에서 고악성도 신경교종(High-grade gliomas) 검출

 

 

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

Big Data 보안  (0) 2023.08.24
아파치 카프카(apache kafka)  (1) 2023.08.23
앙상블 학습/모델  (0) 2023.08.21
빅데이터 분석 기법(알고리즘)  (0) 2023.08.20
NoSQL(CAP이론)  (0) 2023.08.19

+ Recent posts