중 | 랜덤 포리스트(Random Forest) | [정의] 의사결정나무의앙상블모형으로여러개의의사결정나무를분류또는평균내예측하는분석기법 [특징] 각나무별분산높음, 랜덤 selection of feature set, 투표, 과적합예방 [활용] 검출, 분류, 회귀 [기법] 배깅을이용한 forest 구성(데이터집합생성, 훈련, 선형결합) 임의노드최적화(randomized node optimization) [중요매개변수] forest 크기, 최대허용깊이, 임의성정도 |
배깅(부스팅+보팅) 랜덤 셀랙션 의사결정 나무 |
토픽 이름(상) | Random Forest |
분류 | 데이터베이스 > Big Data > Random Forest |
키워드(암기) | Bagging에 트리 생성시 Random Subset of Features를 사용하는 방식을 추가하는 분석기법, 임의 최적 노드, 배깅, 결정 트리, 정규화 랜덤 포레스트, 앙상블, 선형결합 |
암기법(해당경우) |
기출문제
번호 | 문제 | 회차 |
1 | 빅데이터 분석기법인 Random Forest에 대해 설명하시오. | 관리110회1교시 |
2 | 10. 랜덤 포레스트(Random Forest)에 대해 설명하시오. | 합숙18.01.공통.Day-1 |
- Subset의 특성을 모델에 반영하는 빅데이터 분석기법, Random Forest의 개요
- Random Forest 사용 기법
기법 | 내용 |
앙상블 학습 |
|
배깅(Bagging) |
|
- Random Forest의 부각배경
배경 | 내용 |
의사결정트리의 한계존재 |
|
과적합 문제 극복필요 |
|
- Random Forest의 경우 트리들의 편향은 그대로 유지가 되면서, 분산은 감소하기 때문에 보다 안정적(일반화) 이며 정확도 성능이 향상
※ 과적합(overfitting)문제: 감독학습(Supervised Learning)에서 과거의 학습데이터에 대해서는 잘 예측하지만 새로 들어온 데이터에 대해서 성능이 떨어져서 일반화가 어려운 문제
- Random Forest의 특징
-
- 임의성(randomness)에 의해 서로 조금씩 다른 특성을 갖는 트리들로 구성
- 각 트리들의 예측(Prediction)들에 대한 비상관화(decorrelation)
- 일반화 성능의 향상 및 노이즈(noise)에 강함
- 임의화를 통한 과적합(overfitting)문제를 극복
-
- Random Forest의 주요기법
-
- 배깅(bagging)을 이용한 forest 구성
- 부트스트랩(bootstrap)을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기(base learner)들을 결합(aggregating)시키는 방법
- 배깅(bagging)을 이용한 forest 구성
-
단계 | 내용 |
데이터집합생성 |
|
훈련 |
|
결합 |
|
- 배깅(bagging)을 이용해 T개의 결정 트리들로 구성된 Random Forest를 학습하는 과정
[간단한 개념도]
- 임의노드 최적화(randomized node optimization)
- 분석에 사용되는 변수를 랜덤하게 추출하는 것으로써, 훈련단계에서 훈련목적함수를 최대로 만드는 노드분할 함수의 매개변수 θ의 최적값을 구하는 과정
- 즉, 분석을 위해 준비된 데이터로 부터 임의복원추출을 통해 여러 개의 학습데이터를 추출하고 각각 개별학습을 시켜 트리를 생성하여 투표 또는 확률 등을 이용하여 최종목표변수를 예측
- 중요 매개변수
구성요소 | 내용 |
forest의 크기 |
|
최대 허용 깊이 |
|
임의성 정도 | 임의성의 정도에 따라 비상관화 수준의 결정 |
- Random Forest의 응용사례
사례 | 내용 |
키넥트에서의 신체 트랙킹 | 엑스박스 360에서 사용되는 모션 캡처 주변기기인 키넥트에서는 random forest를 이용하여 주어진 입력에서 신체의 각 부분을 분류 |
컴퓨터 단층촬영에서의 해부학 구조 분석 | 3차원 컴퓨터 단층촬영 영상(Computed Tomography, CT) 내에서 주어진 복셀에 대해 해당되는 해부학구조가 어디인지 검출하고 해당 위치를 파악 |
다채널 자기공명영상 분석 | 브라운대학, 캠브리지대학 등에서 다채널 자기공명영상(Multi-channel Magnetic resonance image)으로 촬영된 뇌 영상에서 고악성도 신경교종(High-grade gliomas)를 검출 |
반응형
'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글
Big Data 보안 (0) | 2023.08.24 |
---|---|
아파치 카프카(apache kafka) (1) | 2023.08.23 |
앙상블 학습/모델 (0) | 2023.08.21 |
빅데이터 분석 기법(알고리즘) (0) | 2023.08.20 |
NoSQL(CAP이론) (0) | 2023.08.19 |