주제: 증권 거래소의 효율적인 운영을 위한 성능 튜닝

  • 연상법: '증권 거래소의 거래 효율화 프로젝트'

1. 튜닝 3단계: 진분결 (증권 거래소 개선 프로젝트의 단계)

진단 단계 (진): '시장 조사 및 분석'

  • 인설시자트:
    • 인터뷰(인): '투자자와의 인터뷰' - 투자자들과의 대화를 통해 그들이 거래 시 경험하는 문제점을 수집합니다.
    • 설계(설): '거래 시스템 설계 검토' - 현재 거래 시스템의 설계를 분석하여 효율성을 저해하는 요소를 식별합니다.
    • 시스템(시): '거래 플랫폼 기술 분석' - 거래 플랫폼의 기술적 구성을 검토하여 성능 저하의 기술적 원인을 파악합니다.
    • 자원(자): '자원 배치 최적화' - 거래 처리에 사용되는 컴퓨팅 자원의 배치와 활용도를 분석합니다.
    • 트레이스(트): '거래 데이터 흐름 추적' - 실시간 거래 데이터 흐름을 추적하여 병목 지점을 확인합니다.

분석 단계 (분): '시장 구조 및 운영 분석'

  • 설쿼디오하:
    • 설계 내용(설), 쿼리(SQL), DBMS, 운영체제(OS), 하드웨어(HW) 등 거래소의 전반적인 시스템을 체계적으로 분석합니다.

결과 단계 (결): '거래 개선 결과 평가'

  • 자분결산:
    • 자료수집/분석(자): 개선된 시스템에서의 거래 데이터를 수집 및 분석하여 성능 개선 효과를 평가합니다.
    • 결과 평가(결): 거래 속도와 효율성이 향상되었는지를 평가합니다.
    • 산출물 작성(산): 개선 프로젝트의 성과를 문서화하고 향후 개선 계획을 수립합니다.

성능 지표: TRL (Throughput, Response Time, Load Time)

  • 연상법: '거래 효율성 측정'
    • 증권 거래소에서 거래 처리율, 거래 반응 시간, 최대 거래량 처리 시간을 측정하는 도구와 비교할 수 있습니다.

DB 튜닝 기법

  • 디자인 단계 기법: 거래 시스템의 데이터베이스, 테이블, 인덱스 구조를 최적화하여 거래 지연을 최소화합니다.
  • DB 환경: 거래소의 DBMS, OS, Storage, Network 구성을 최적화하여 빠른 거래 처리를 지원합니다.
  • SQL 기법: 거래 쿼리 최적화, 조인 순서 조정, 병렬 처리를 통해 거래 처리 속도를 높입니다.
반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

[서브암기] 옵티마이저  (0) 2024.05.03
개방형 연결 데이터(Linked Open Data)  (0) 2023.08.31
공공데이터  (0) 2023.08.30
New SQL  (0) 2023.08.29
DB Table partitioning  (2) 2023.08.28

 

 

1. 옵티마이저 핵심 기능

  • 실행계획 탐색: '탐험가의 지도 찾기'로 상상하세요. 탐험가가 보물을 찾기 위해 여러 지도 중 최적의 경로를 찾는 것처럼, 옵티마이저는 실행 계획을 탐색합니다.
  • 비용 산정: '쇼핑 중 비교 가격표 확인'으로 연상하세요. 쇼핑을 할 때 다양한 제품의 가격을 비교하며 최적의 선택을 하는 것처럼, 옵티마이저는 각 실행 계획의 비용을 추정합니다.

2. 규칙기반 옵티마이저 (RBO)

  • 우선순위 - SR CIF:
    • Single Row (SR): '싱글 레이서'로 상상하세요. 레이스에서 혼자 빠르게 결승점을 향해 달리는 것처럼, 단일 행 처리는 가장 빠릅니다.
    • Cluster (C): '클러스터 풍선'으로 상상하세요. 여러 풍선이 뭉쳐 있는 것처럼, 클러스터는 데이터 묶음 처리에 유리합니다.
    • Index (I): '인덱스 카드 정리'로 생각하세요. 정보를 빠르게 찾기 위해 인덱스 카드를 사용하는 것처럼, 인덱스는 데이터 접근을 빠르게 합니다.
    • Full Scan (F): '풀 코스 레이스'로 연상하세요. 모든 구간을 돌아야 하는 마라톤처럼, 전체 스캔은 데이터베이스 전체를 조사합니다.

3. 비용기반 옵티마이저 (CBO)

  • 특징: '비용 효율적인 쇼핑'으로 비유할 수 있습니다. 가능한 한 적은 비용으로 최대의 효과를 얻으려는 쇼핑과 같이, CBO는 가장 비용 효율적인 실행 계획을 선택합니다.

4. 구성요소

  • 질의 변환기 (Query Transformer): '요리 레시피 변환기'로 상상하세요. 다양한 재료를 사용해 새로운 요리를 만드는 것처럼, 질의 변환기는 SQL 질의를 최적의 형태로 변환합니다.
  • 비용산정기 (Cost Estimator): '여행 비용 계산기'로 연상하세요. 여행 전에 경비를 계산하는 것처럼, 비용산정기는 실행 계획의 비용을 산정합니다.
  • 실행 계획 생성기 (Plan Generator): '투어 가이드 플랜 생성기'로 생각하세요. 여행 일정을 계획하는 투어 가이드처럼, 실행 계획 생성기는 최종 실행 계획을 생성합니다.
반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

[서브암기] DB튜닝  (0) 2024.05.03
개방형 연결 데이터(Linked Open Data)  (0) 2023.08.31
공공데이터  (0) 2023.08.30
New SQL  (0) 2023.08.29
DB Table partitioning  (2) 2023.08.28
개방형 연결 데이터(Linked Open Data)
LOD
[정의]사용자가정확하게원하는정보를찾을수있도록웹상의모든데이터와데이터베이스를공개하고연결하는데이터
---------------------------------------------------------------------------------
웹상에존재하는데이터를개별 URI로식별하고각 URI에링크정보를부여함으로써상호연결되웹을지향하는모델
(발행절차: LOD로웹상에데이터개방, LOD열람및검색, 타LOD연결RDF, LOD공개데이터레파지토리에등록)
122회 기출
100.토픽 이름() 개방형 연결 데이터 (Linked Open Data)
분류 DB > 기타
키워드(암기) 생성/관리/발행/협업, URI, HTTP, RDF, Link, SPARQL, Ontology
암기법(해당경우)  

 

기출문제

번호 문 제 회 차
1 LOD(Linked Open Data) 122.관리.1
2 5.빅데이터분석 기술 오픈데이터 플랫폼을 구성하기 위한 LOD(Linked Open Data) 기술요소를 설명하시오 119.관리.4
3 12. LOD(Linked Open Data) 공공데이터에 대하여 설명하시오. 합숙_2019.01
관리. Day-5
4 3.LOD(Linked Open Data) 대하여 다음 내용을 설명하시오.
1)LOD 개념
2)문서 (web) LOD에 의한 데이터 웹의 차이점
3)LOD 기술 요소
110.응용.3
5 12. LOD(Linked Open Data) 대해 설명하시오 모의_2017.07.응용.1

I. 공공데이터의 개방형 플랫폼, 개방형 연결 데이터의 개요

. 개방형 연결 데이터 (Linked Open Data) 정의

- 사용자가 정확하게 원하는 정보를 찾을 수 있도록 웹상의 모든 데이터와 데이터베이스를 공개하고 연결하는 데이터

1) 상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier) 식별하고, URI 링크 정보를 부여함으로써

상호 연결된 웹을 지향하는 모형

2) 버너스리에 의해 2006 제안되었으며, 이는 시맨틱 기술의 일부를 활용하여 웹을 보다 유용하게 만들기 위해

 구조화된 데이터를 웹에서 유통할 있는 방법

3) LOD는 ‘사람만 이해하는 웹’에서 ‘기계가 이해하는(의미처리) 웹’으로 전환하기 위한 기법으로, 데이터를 누구나 이용할

있는 형식으로 개방해 링크시켜 나가는 구조

 

. LOD(Linked Open Data) 4가지 원칙   

구 분   
URI 사용 Linked Data 웹문서의 위치를 나타내는 URL 중심의 식별체계를 지양하며, 개별 문서에 존재하는 개별 객체에 각각 URI 부여
HTTP URI 사용 Linked Data URI 중에서도 HTTP 프로토콜을 통해 접근할 있는 URI 제안하고 있다. 이는 링크드 데이터에 대한 접근성을 강화하려는 목적
RDF 사용 Linked Data RDF 같이 트리플 모형으로 구조화된 데이터를 사용해야 함. 웹의 데이터를 정형화된 구조로 나타내고, 연계하기 위함
링크정보의
부여
3가지 원칙을 지켰다고 해도, Linked Data에서는 보다 발전된 시맨틱 웹을 위해 링크정보를 부여하는 것이 매우 중요.

 

II. LOD 구축절차

구 분  
Linked Data 생성단계 Linked Data 위한 모델 지식 베이스 생성
Linked Data 관리단계 대용량 Linked Data 저장, 관리, 질의처리,추론지원
Linked Data 발행단계 서비스에 따라 SPARQL Endpoint 접점을 생성하고 Linked Data 발행
Linked Data 협업단계 Linked Data 통한 협업 설계

III. LOD 구성도 구성요소

 . 구성도

. 구성요소

구 분   
URI  
IRI - International Resource Identifier with UNICODE
XML - 언어를 표현하는 언어 역할인 메타언어(meta-language) 기능
- XML 임의의 문서구조를 지정할 있는 반면에 문서구조가 갖는 의미에 대해서는 아무 것도 정의하지 않으며 따라서 표현한 문서의 의미를 해석하는 역할은 하지 않음
Namespace - XML 문서에서 요소(element) 속성(attribute) 이름으로 쓰일 수 있는 이름 들의 집합
- XML 사용할 상이한 의미를 가지는 동일한 용어간의 불확실성을 해결
RDF  
RDFS - RDF Schema 정보로 경량의 온톨로지를 표현
- 의미를 기술하는 RDF 형식 언어
R2RML - RDB(데이터베이스)의 데이터를 RDF 바꿔주는 랭귀지
Ontology - RDF Schema “분류”와 “논리적인 추론”을 부과하여 기계가 web 의미를 해석하는 semantic web을 완성
- 종류 : DAML+OIL, SHOE, OWL (Web ontology language)
OWL - DAML+OIL에서 파생된 web ontology 언어
- 속성과 클래스를 기술할 다양한 의미 표현 어휘를 제공 : 클래스 관계, 관계차수, 동치성, 풍부한 속성타입, 속성 특징, 열거형 클래스
- 3개의 하위 언어를 구성 (OWL Lite, OWL DL, OWL Full)
Logic - 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능 등을 의미
- 추론을 위한 로직
SPARQL - 온톨로지 질의 언어
- 그래프 구조로 되어 있는 RDF에서 정보를 취하기 위한 언어
- Query 있는 아니라 결과에 따른 새로운 RDF 구성할 있는 장점
- RDF 구조에서 모든 하위 구조를 검색하여 정보를 취득하고 새로운 RDF 문장을 RDF 문서에 삽입할 수 있음
Proof/Trust - 웹의 정보에 대한 신뢰를 의미
RIF - Rule Interchange Format
- 규칙의 정의와 교환을 위한 계층

IV. LOD 활용사례

구 분 상 세 내 용
해외 DB pedia : 위키피디아 데이터베이스 검색 및 추출 커뮤니티
BBC : 영국공영방송
OCLC WorldCat’ 미국세계도서관검색포털
LOV 미국의 수많은 용어집을 보유
GeoNames 지리정보서비스
국내 공공WiFi 위치정보
생물도감 및 이미지, 표본사진 통합
유물/유적 데이터 등 국내 한국사와 관련된 자료를 통합

- 국가적으로 보존 및 이용 가치가 있는 자료로서 학술, 문화, 과학기술, 행정 등에 관한 지식정보자원을 디지털화 진행

 

V. 문서의 웹과 LOD 차이

- 웹을 활용하는 사회문화적 환경이 웹상의 정보를 공유연계재이용해서 가치를 창출하는 추세로 변하면서 정보의 의미적 연결을 지원하는 LOD에 주목

- 팀버너스리는 오픈데이터 형식품질, 재이용성 평가와 LOD 확산 유도를 위해 5스타() 전개(deployment) 스킴을 제안, LOD 형식 개방을 4, 5단계에 배치

- LOD는 웹의 한계를 극복하기 위해 문서 단위가 아닌 기계가 이해할 수 있는 데이터를 의미 있게 하이퍼링크로 연결하는 ‘데이터의 웹(Web of Data)’을 추구

 

5. 팀버너스리의 5스타 전개 스킴

 

 

[참고 – 합숙 2019.01 D5 1교시]

. 공공데이터 제공관리 단계

 

. LOD발행(Publishing 절차)

추가 : 119 기출

 

 

 

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

[서브암기] DB튜닝  (0) 2024.05.03
[서브암기] 옵티마이저  (0) 2024.05.03
공공데이터  (0) 2023.08.30
New SQL  (0) 2023.08.29
DB Table partitioning  (2) 2023.08.28
공공데이터
(Open Data)
공공데이터 [정의] 공공기관이생성또는취득하여관리하고있는광(光) 또는전자적방식으로처리되어부호·문자·도형·색채·음성·음향·이미지및영상등(이들의복합체포함)으로표현된모든종류의자료또는정보
[오픈데이터플랫폼] CKAN : Comprehensive Knowledge Archive Network, 공공데이터개방지원플랫폼
[플랫폼기능] 데이터등록, 데이터발생, 데이터현황, 데이터포털, 데이터시각화
[기반기술] LOD, RDF, Semantic Web, URI, XML, Script
[데이터등급] 오픈라이선스(PDF), 구조화된데이터(Excel), 비독점(범용) 형식(CSV), URI사용(RDF), 다른데이터와링크(LOD)
[주요쟁점] 개인정보3법(개인정보보호법, 정보통신망법, 신용거래정보법) 국회계류 -> 데이터개방지연
토픽 이름() 공공데이터
분류 MG > 범정부 IT전략/정책 > 공공데이터(Open Data)
키워드(암기) 오픈데이터 플랫폼, 품질관리
공공데이터의 제공 및 이용 활성화에 관한 법률
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 3. 국가에서 보유하고 있는 다양한 데이터를 개방하여 국민들이 보다 쉽고 용이하게 공유 및 활용할 수 있도록 개방하고 있다. 이런 개방되는 공공 데이터의 품질을 관리하기 위한 공공데이터 품질관리 수준평가 체계에 대하여 설명하시오. 모의_2018.05.응용.2
2 4. 정부3.0 시대에 발맞춰 중앙 부처는 정보 개방의 폭을 확대하고 국민 누구나 쉽게 찾아 이용할 있도록 공공데이터를 개방하고 있다. 공공데이터 제공 이용에 따르는 기본원칙, 주요 활용사례, 기대효과에 대하여 설명하시오. 101.응용.4
모의_2016.01.관리.2
3 최근 정부 3.0 기조에 맞추어 공공데이터에 대한 개방과 활용이 전반적으로 확산되고 있다.
이에 공공데이터 시각화의 개념, 공공데이터의 활용기법과 활용효과를 극대화 시킬 있는 시각화 기법에 대해 설명하시오.
모의_2015.11.응용.4
4 1. 공공데이터개방 기반기술인 LOD(Linked Open Data) 대해 설명하시오. 모의_2015.06.관리.1
5 3. 공공데이터 개방을 위한 오픈데이터 플랫폼 (Open Data Platform) 대해서 상술하시오. 모의_2014.06.공통.4
6 1. 최근 우리나라를 비롯하여 영국, 미국, 호주 전세계 여러 국가들이 정부공공기관이 보유하고 있는 공공데이터의 개발과 활용을 위한 효율적인 서비스를 추진 중이다.
. 오픈데이터 정책의 추진단계에 대해 설명하시오.
. 주요 오픈데이터 플랫폼의 특징에 대해 설명하시오.
모의_2014.05.관리.2

 

I. 신규서비스 창출과 알권리를 보장하는 공공데이터 개요 제21(공공데이터포털의 운영)



공공데이터 <공공데이터의 제공 이용 활성화에 관한 법률>
공공기관이 생성 또는 취득하여 관리하고 있는 광() 또는 전자적 방식으로 처리되어 부호·문자·도형·색채·음성·음향·이미지 영상 (이들의 복합체 포함)으로 표현된 모든 종류의 자료 또는 정보
공공데이터 플랫폼 공공데이터의 개방 활용과 효율적 서비스를 위해 데이터를 편리하고 손쉽게 개방, 활용케 하는 오픈소스 기반 플랫폼

공공데이터를 만들게 된 공무상의 최초 이용 목적 이외에 이용자에게 데이터를 재이용할 수 있도록 제공하고, 제공받은 데이터를 영리적· 비영리적으로 이용할 권한을 부여.

 

II. 공공데이터 제공 및 이용에 따르는 기본원칙과 플랫품의 기능과 역할

 . 공공데이터 제공 이용에 따르는 기본원칙

데이터 제공 측면 이용권의 보편적 확대 노력 공공기관은 공공데이터를 편리하게 이용할 수 있도록 노력해야 함.

이용에 대한 평등의 원칙 국민의 이용과 접근에 평등의 원칙을 보장해야 함

이용권 보장 이용자의 접근제한, 차단, 저해행위를 하여서는 아니 된다.
, 3 권리침해, 불법행위 악용하는 경우는 제외 됨.

영리적 활용 보장 공공데이터의 영리적 이용인 경우에도 이를 금지 제한하여서는 아니 된다. , 3 권리침해, 불법행위 악용하는 경우는 제외 .
데이터 이용 측면 이용자의 의무 준수 원칙 국가안전보장 등 공익이나 타인의 권리를 침해하지 아니하고 법령이나 이용조건 등에 따르는 의무를 준수해야 함.

- 공공데이터의 제공 이용 활성화에 관한 법률 제3조에 기본원칙 명시

- 국가안보, 개인정보 예외적인 경우를 제외한 공공데이터의 개방 자유로운 활용을 보장

 

. 공공데이터 오픈데이터 플랫폼의 기능과 역할


- 오픈데이터 플랫폼을 이용한 비용절감, 협업인프라, 인터페이스 향상

 

구분 설 명
데이터
등록
- 데이터 개방을 위해 데이터 업로드, 데이터 저장 등의 역할을 수행
- 데이터 등록을 위해 지원가능 한 파일 형식을 정의하고, 데이터의 API 추출 등의 기능 제공
데이터
발생
- 등록된 데이터에 대해 지원가능한 파일형태로 데이터를 제공
- 데이터 제공에 따른 보안, 표준 관리 기능
데이터
현황
- 사용자 관리자를 위해 데이터 출처, 분류, 내용 등이 포함된 데이터 카달로그
- 데이터의 원활할 사용을 위한 다양한 검색 기능
데이터
포털
- 사용자, 고객센터, 포털 운영 관련 서비스 지원 기능
기타 - 플랫폼 기술 수준에 따라 데이터 추출 및 필터링을 통한 도표, 그래프 시각화 기능

 

III. 공공데이터 품질관리 및 품질평가

. 공공데이터 품질관리

- 테이터의 최신성, 정확성, 상호연계성 등을 확보하여 사용자에게 유용한 가치를 수 있는 수준

 . 공공데이터 품질평가

구분 설 명
목적 - 기관 자체적인 품질관리 역량을 축적하여 양질의 데이터를 관리, 개방활용으로 이어지는 선순환 관리체계 구축 도모
추진근거 - 「공공데이터법」제9(제공 운영실태 평가), 22(공공데이터의 품질관리)
평가항목 - 4 영역(계획·구축·운영·활용), 9 평가지표
평가지표 체계

평가등급 1등급 (최적확) - 조직 전체의 데이터 품질관리 활동의 선순환 체계 확립
- 품질항상 유지가 보장됨

2등급 (체계화) - 조직 차원의 데이터 품질관리 프로세스 이행
- 체계적 수행 가능

3등급 (관리화) - 데이터 풀질관리 위한 필수적인 활동들이 관리 통제
- 품질향상이 가능한 수준

4등급 (도입) - 데이터 품질관리 인식
- 기초적인 품질관리 활동 도입 시작

5등급 (도입전) - 데이터 품질관리 인식 미흡
- 기본적 품질관리 활동 수행 불가능

 

IV. 공공데이터 주요 활용사례

구분 사례 설명 제공기관
교통 GPS Logger 측정소 정보 활용 한국환경공단

교통정보 CCTV 전국 도로 CCTV 영상 활용 EX한국도로공산, 공공데이터포털, 서울특별시

다방 아파트, 오피스텔, 단독/다가구의 전월세 매매 정보 활용 국토교통부
행정 해로드 해양관련 정보 활용 해양수산부

공무원연금 공무원 연금관련 정보 활용 공무원연금공단

뿡뿡이 전국의 공중화장실 정보 활용 공공데이터활용지원센터
산업 나들가게 소상공인 상가업소 정보 활용 소상공인시장진흥공단

잡코리아 취업관련 정보 활용 고용노동부

CATCH JOB 12 가량의 기업 정보 활용 국민연금공단
의료 국가암정보센터 국립암정보 및 국립암센터 진료 일정 정보 활용 국립암센터

시각장애인편의센터 시각장애인 편의시설 정보 활용 행정안전부

[추가]LOD

[잠고] 공공데이터 포털 시스템 구성도

 

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

[서브암기] 옵티마이저  (0) 2024.05.03
개방형 연결 데이터(Linked Open Data)  (0) 2023.08.31
New SQL  (0) 2023.08.29
DB Table partitioning  (2) 2023.08.28
샤딩(Sharding) / Shard  (0) 2023.08.27
New SQL NewSQL is a class of relational database management systems that seek to provide the scalability of NoSQL systems
토픽 이름(출제예상) New SQL
분류 DB > 기타 > New SQL
키워드(암기) SQL기반 상호작용,ACID 지원, 잠금 동시성 제어, 노드 단위 고성능, 병렬/ 공유 아키텍처
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 11. NewSQL 대해 설명하시오. ITPE_2021.01.1
2 NewSQL 대하여 설명하시오. 합숙_2019.08.관리.3

 

I. ACID + BASE 특성을 갖춘 NewSQL 개념

II. NewSQL 기능 기술요소

. NewSQL 기능

구분 기능 설명
트랜잭션 - SQL 기반 상호작용 - App DBMS 연계(입력/조회/갱신/삭제) SQL 사용해 통신

- ACID 지원 - RDBMS 에서 가장 중요한 트랜잭션 커밋(Commit) 위한 필요 속성인 ACID(원자성, 일관성, 고립성, 지속성) 지원해야

- 비잠금 동시성제어 - 데이터 무결성 처리를 위해 지원하는 트랜잭션 동시 제어 잠금 처리와 관련해 기존 방식과 다른 Non-locking 구조를 지원
아키텍처 - 노드단위 고성능 - 단일 DBMS 서버 노드 단위로 확장해 고성능을 보장

- 병렬/비공유 - 병렬 아키텍처 기반 수행으로 데이터를 고성능으로 처리
- 분산 처리시 데이터가 서버에 중복되지 않고 독립적으로 존재

- NewSQL 트랜잭션 ACID 특성과 Non-locking 동시성제어 구조를 지원하고, 병렬 아키텍처 기반 분산처리 기능을 제공

 

 

. NewSQL 기술요소

구분 기술요소 설명
RDBMS
측면
- 인덱싱 - 데이터베이스 검색 속도 향상, 테이블 연관, 독립적인 저장공간

- MVCC - 트랜잭션의 다중 버전 동시성 제어로 트랜잭션 직렬화

- 샤딩 - 동일 테이블 스키마의 데이터를 다수 데이터베이스에 분산 저장
NoSQL
측면
- 스키마리스 - 테이블과 컬럼 스키마 없이 Key-Value 기반 단순 검색, 추가 용이

- 인메모리 - 고성능, 저지연 서비스, 버퍼 관리 불필요

- DB 스케일링 - scale-out 방식의 유연한 데이터 구조

- NewSQL 데이터 크기에 상관없이 빠르고 안정적인 성능 구현과 분산 아키텍처 기반 확장성을 제공

 

III. NewSQL, RDBMS, NoSQL 비교

구분 NewSQL RDBMS NoSQL
ACID 특성 - ACID 특성 제공 - ACID 특성 제공 - ACID 특성 미제공
BASE 특성 - BASE 특성 제공 - BASE 특성 미제공 - BASE 특성 제공
스키마 - Schema-less - Schema-full - Schema-less
확장성 - Scale-out - Scale-up - Scale-out
솔루션 - Volt DB, Spanner - Oracle, MSSQL - MongoDB, Redis

- NewSQL 등장으로 RDBMS, NoSQL 대체하는 것이 아닌 각각의 분야에서 발전하는 형태로 전망.

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

개방형 연결 데이터(Linked Open Data)  (0) 2023.08.31
공공데이터  (0) 2023.08.30
DB Table partitioning  (2) 2023.08.28
샤딩(Sharding) / Shard  (0) 2023.08.27
Hadoop 3.0  (0) 2023.08.26
DB Table partitioning 데이터액세스시(특히풀스캔시) 액세스의범위를줄여성능을향상을위한, 여러개의세그먼트로나눈작업. 데이터가용성확보, I/O 분산
[기법] Vertical partitioning, Horizontal partitioning
[유형] 레인지파티셔닝, 리스트파티셔닝, 해시파티셔닝, 결합파티셔닝
[동향] Reference 파티션, Interval 파티션
 
106.토픽 이름() 데이터베이스 파티셔닝(Database Partitioning)
분류 DB > Data 관리 운영
키워드(암기) DB, 레인지, 리스트, 해쉬, 결합 파티셔닝
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 5. 대용량의 데이터 처리가 산업 전반에 걸쳐 상용화되고 있다. 대용량 데이터의 처리 및 검색 성능을 고려하여 데이터베이스를 파티션을 통해 분산 및 저장하는 것을 검토하고 있다. 다음에 대하여 설명하시오.
1) 파티셔닝을 추진하는 목적 2) 파티셔닝 종류 3) 분할 기준
119.컴시응.3교시.5
 

 

I. DB 파티셔닝의 배경과 종류 기준

- 서비스의 크기와 대용량 데이터의 증가에 따라 단일 DB의 용과 성능 한계에 봉착

- 이를 극복하기 위해 테이블을 기준에 따라 분할하여 저장하는 파티셔닝 기법 등장

 

II. DB 파티셔닝의 추진 목적 및 파티셔닝 종류

  1. DB 파티셔닝의 추진 목적

  1. DB 파티셔닝의 종류
항목 수평 파티셔닝 수직 파티셔닝
개념도
개념 - 하나의 Table을 행을 기준으로 서로 다 른 Table로 분리 시키는 파티셔닝 - 하나의 Table을 컬럼을 기준으로 서로 다른 Table로 분리시키는 파티셔닝
Schema - 파티셔닝 된 table간 schema 동일 - 파티셔닝 된 table간 서로 다른 schema 사용
식별자 - Key 기반으로 서로다른 table로 분산 - 동일 key를 이용하여 서로 다른 column 저장

- 수평 파티셔닝은 Sharding 과 동일한 개념으로 사용

 

     III. DB 파티셔닝의 분할 기준

  1. DB 파티셔닝 분할 기준 종류

- 동일한 논리적 속성을 가지며, 분할 하기 위해 Column, Partitioning Key, 복합 Partitioning 방식으로 분할

 

  1. DB 파티셔닝의 분할 기준 상세 설명
파티셔닝기준 파티셔닝 종류 상세 설명
Column 기준 Range Partition - Logical Column 값의 분산에 활용
- month, 분기 범위

List Partition - 유사한 분포의 값의 분산에 활용
파티셔닝 Key 기준 Hash Partition - Partition Key값에 Hash 함수를 적용하여 분할
복합 파티셔닝 Range-Hash Partition - Range 방식과 Hash 방식의 Hybrid
- Range 방식 파티셔닝, 파티션 내부 해시방식

Range-List Partition - Range 방식과 List 방식의 Hybrid
- Range 방식 파티셔닝, 파티션 내부 List 방식

- 동일한 논리적 속성을 가지며, 분할 하기 위해 Column값, Partitioning Key, 복합 Partitioning 방식으로 분할

 

. DB 파티셔닝과 분산 DB

항목 파티셔닝 분산DB
개념 - 대용량 데이터를 동일한 논리적 속성을 가진 테이블로 분할하는 기법 - 다수의 물리적인 DB 하나의 논리적 DB 연결하고 관리하는 DB 한종류
물리적 DB 1 여러대
목적 - 대용량 테이블 처리
- 성능향
- 데이터 분산 저장
- 고가용성 확보

- 대용량 데이터의 필요성 증가로 인해, 효율적으로 저장하고 관리하기 위한 다양한 기법 및 기술이 등장

 

[참고] DB Table partitioning 의 유형

유형 개념도 설명
레인지 파티셔닝
(Range Partitioning)

-파티션 키 값의 범위로 분할
-가장 일반적인 형태로 일정 범위를 주어 분할 하는 기법
리스트 파티셔닝
(List Partitioning)

-불연속적인 값의 목록 을 각 파티션에 지정
-순와 연관성이 없는 데 이터의 그룹핑
해시 파티셔닝
(Hash Partitioning)
-파티션 키 값에 해시 함수 적용, 해쉬테이블로 파티션 매핑
-데이터가 모든 파티션 에 고르게 분산
-병렬 처리시 성능 향상
결합파티셔닝 (Composite Partitioning)
-레인지 파시셔닝 후 각 파티션내에서 해쉬, 혹은 리스트 기법으로 서브 파 티션 구성
-각 기법의 장점 결합 가능
Reference
파티션

부모 테이블 파티션 키를 이용해 자식 테이블을 파티셔닝 하는기능
Interval
파티셔닝
Range 파티션을 생 성할 때 interval, 기 준을 정의함으로써 정해진 간격으로

- 최근 다양한 결합 파티셔닝이 가능 해지면서 Range-Range , 리스트-해시, 리스트-리스트, 리스트-Range 기법들과 함께 Reference 파티션, Interval 파티셔닝 기법도 추가됨

 

 

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

공공데이터  (0) 2023.08.30
New SQL  (0) 2023.08.29
샤딩(Sharding) / Shard  (0) 2023.08.27
Hadoop 3.0  (0) 2023.08.26
HDFS(Hadoop Distributed File System)  (0) 2023.08.25
샤딩(Sharding) / Shard [정의] 물리적으로다른 DB에샤드라는개별파티션으로수평분할방식으로분산저장하고조회하는방법
[장점] 성능개선, 신뢰성개선, 위치추상화, 대량DB처리
[분할방법] Vertical Partitioning, Range based Partitioning, Key or Hash Based Partitioning, Directory Based Partitioning
샤드
수범키디




토픽 이름 () 샤딩(Sharding) / Shard
분류 DB > Data 관리 및 운영 > 샤딩(Sharding) / Shard
키워드(암기) 샤드, 라우팅프로세스, 수평분할, 분산저장
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 대용량 데이터 처리를 위한 Sharding에 대하여 설명하시오 102.관리.1.4
2 데이터베이스의 전체 시스템 부하 증가시에도 서비스의 품질을 유지시키는 기능이 바로 확장성(Scalability)이다. 확장성에 관한 다음 질문에 대하여 설명하시오.
. Scale-out, Scale-up 비교
. Horizontal scale-out, Vertical scale-out 비교
. Sharding, Query-off loading 비교
2017.01.관리.2.3
3 데이터베이스에서 성능 향상을 위한 샤딩(Sharding), 파티셔닝(Partitioning) 기법과 가용성을 위한 리플리케이션 Replication) 쿼리 오프로딩(Query offloading)기법에 대해 설명하시오. 2018.11.관리.3.6

 

I. 대용량 데이터 처리를 위한 데이터베이스 파티셔닝 기술, Sharding 개념

. Sharding 정의

- DBMS 레벨에서 데이터를 나누는 것이 아니고 물리적으로 다른 데이터베이스에 데이터를 샤드(Shard)라고 부르는 각각의 개별 파티션으로 수평 분할 방식으로 분산 저장하고 조회하는 방법

. Sharding 장점

장점 설명
성능 개선 큰 데이터를 압축, 개별 테이블은 각 샤드에서 더 빠른 작업을 지원
신뢰성 개선 한 샤드가 실패하더라도 다른 샤드는 데이터 서비스를 제공
위치 추상화 애플리케이션 서버에서 어떤 데이터가 어떤 데이터베이스에 위치한지 알 필요가 없음

. Sharding 개념도(몽고DB 사례)


- 샤드 키로 설정된 칼럼의 범위를 기반으로 각각의 값에 맞는 샤드에 저장
- 어플리케이션 레이어에서는 MongoS라는 라우팅 프로세스만 연결하므로 Shard 구조에 대해서는 필요도 없고, 구조변경에 따른 수정도 필요 없음

II. Sharding 데이터베이스 분할 방법과 샤딩 적용시 가이드라인

  1. Sharding 데이터베이스 분할방법
방법 설명 사례/특징
Vertical Partitioning -테이블 별로 서버를 분할하는 방식
-구현 간단. 전체 시스템에 변화 필요 없음. 서버 데이터 거대해지면 추가 샤딩 필요
-사용자 프로필정보용 서버, 사용자 친구리스트용 서버, 사용자가 만든 콘텐츠용 서버 등으로 분할하는 방식
Range based Partitioning -하나의 feature table 점점 거대해지는 경우 서버를 분리하는 방식
-데이터를 분할하는 방법이 예측 가능해야 함
-사용자가 많은 경우 사용자의 지역정보를 이용해서 user 별로 서버를 분리하거나, 일정데이터라면 연도별로 분리, 거래정보라면 우편번호를 이용하는 방식
Key or Hash Based Partitioning -엔티티를 해쉬 함수에 넣어서 나오는 값을 이용해서 서버를 정하는 방식
-해쉬 결과 데이터가 균등하게 분포되도록 해쉬함수를 정하는 게 중요
-) 사용자ID 숫자일 경우 나머지연산을 이용하는 방법
Directory Based Partitioning -파티셔닝 메커니즘을 제공하는 추상화된 서비스를 생성 -샤드키를 look-up 있으면 되므로, 구현은 DB 캐쉬를 적절히 조합해서 만들 있음
  1. 샤딩 적용 시 가이드라인
구분 가이드라인 주요 내용
DB 설계
가이드라인
데이터 재분배 서비스 정지 없이 scale-up 있어야

조인 Sharding-DB 간에 조인이 불가능 하기에 처음부터 역정규화도 고려해야 함

파티션 샤드 해쉬 함수 설계가 중요

데이터는 작게 Table의 단위를 가능한 작게 만들어야 함
응용 설계
가이드라인
트랜잭션 Global Transaction 사용하면 shard DB간의 트랜잭션도 가능

Global Unique Key DBMS 에서 제공하는 auto-increment 사용하면 key가 중복될 수 있기 때문에, 어플리케이션 레벨에서 GUID를 생성해야 함

III. 일반 데이터베이스와 샤딩 적용 데이터베이스의 비교

방법 일반 데이터 샤딩
개념 데이터 및 정보 관리 기술 테라 단위의 데이터 관리 기술
구성도


유형 Clustering ,HA, Vertical,  range based, key hash, directory based
특징 - 데이터의 효율적 관리 기술 대량 데이터 처리를 위한 파티셔닝 기술 구현
빅데이터 활용 기술로 주목받고 있음.










반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

New SQL  (0) 2023.08.29
DB Table partitioning  (2) 2023.08.28
Hadoop 3.0  (0) 2023.08.26
HDFS(Hadoop Distributed File System)  (0) 2023.08.25
Big Data 보안  (0) 2023.08.24
Hadoop 3.0 [운영측면 특징] 이레이저 코딩(Reed Solomon),
YARN Timeline Service v.2(Timeline Server),
MapReduce task-level native optimization(JNI[Java Native Interface])
[개발측면 특징]
JDK 8.0, Shell script/api, HA

 
토픽 이름() Hadoop 2.0 3.0
분류 DB > Hadoop(Framework) > Hadoop 2.0
키워드(암기) HFDS, Map-Reduce, YARN(Yet Another Resource Negotiator)
암기법(해당경우)  

 

기출문제

번호 문제 회차
1 하둡 분산파일시스템(HDFS: Hadoop Distributed File System) 특징 구조에 대하여 설명하고, 구성요소인 네임노드, 데이터 노드의 역할에 대하여 설명하시오 111.응용.2
2 빅데이터 분산처리시스템인 하둡 MapReduce 한계점을 중심으로 Apache Spark Apache Storm 비교하여 설명하시오 105.정보관리.2
3 빅데이터 핵심기술을 오픈소스와 클라우드 측면에서 설명하고, 표준화 기구들의 동향을 설명하시오 101.정보관리.2
4 아파치 하둡(Apache Hadoop) 구조와 작동 개요를 맵리듀스 엔진 (MapReduce engine)중심으로 설명하시오. 99.정보관리.3

 

I. Hadoop1.0 문제점과 Hadoop 2.0 등장

  1. Hadoop1.0 문제점
문제점 설명
Job Tracker 병목 - 클러스터 자원배분과 Job 관리를 함께 수행
- 클러스터에서 병목의 지점이 됨
낮은 자원 활용 - 고정된 /리듀스 슬롯
- 노드에서 실행할 있는 Map Reduce 태스크 개수가 제한됨
- , 노드에 여유 자원이 있어도 자원을 활용하지 못함
확장 한계 - 맵리듀스만 실행 가능
  1. Hadoop2.0 등장
  • Hadoop1.0 문제점을 해결한 YARN 아키텍처 도입
  • Yet Another Resource Negotiator
  • 하둡 클러스터의 각 어플리케이션에 필요한 리소스를 할당하고 모니터링 하는 업무에 집중함으로써 다양한 어플리케이션이 하둡 클러스터의 리소스를 공유할 수 있도록 하는 핵심요소
  • JobTracker 하던 가지 역할(자원관리, Job 상태관리) ResourceManager ApplicationMaster 분리(JobTracker 병목제거), 범용 컴퓨팅 클러스터 역할
  • MR외에 다양한 어플리케이션을 실행할 있으며, 어플리케이션마다 자원(CPU, Memory) 할당
  • MapReduce 사용하지 않는 어플리케이션이 하둡 클러스터에 접근할 있도록 관리 기능을 제공

  • 하둡 기반 스케줄링, 자원관리, 다양한 종류의 분산환경을 지원하는 차세대 하둡 플랫폼기술
  • YARN이라는 자원관리와 다양한 이중화 기능이 개선된 HDFS 2 바탕으로 플러그인 구조를 가질 수 있는 확장 가능한 모델을 제공
  1. Hadoop 1.0 구분되는 YARN 기반 Hadoop2.0 특징

  1. Hadoop 2.0 특징
특징 설명
JobTracker 역할분리 - 하둡 1.0 JobTracker 클러스터 전체의 리소스 관리와 Job 수행관리의 분리
- Resource Manager: 리소스 관리
- Application Master: Job 관리
효율적인 자원관리 - 하둡 1.0 /리듀스 슬롯의 개념을 제거해 클러스터 전체의 사용 효율성이 증대됨
확장성 범위확대 - 하둡 1.0 하나의 JobTraker 노드환경의 클러스터 확장문제를 Resource Manager, Application Master 분리로 해결
다양한 분산처리 환경지원 - MapReduce이외의 다른 분산처리 환경 지원
- YARN API 이용하면 새로운 분산처리 개발 가능
- 버클리대학에서 만든 SPARK, STORM 등이 YARN위헤서 동작
- 배치처리 방식뿐만아니라 실시간, 스트리밍 가능해짐
- Batch, Interactive, Realtime, Streaming
  1. Hadoop2.0 구성도와 구성요소

  1. Hadoop2.0 구성요소
구분 요소 설명
Resource Manager - 클러스터 전반의 자원관리와 테스크들의 스케줄링을 담당
- 클러스터마다 존재
- 클러스터 내에 설치된 모든 Node Manager 통신을 통해 서버의 자원 관리


Scheduler - Node Manager들의 자원상태 관리, 부족한 리소스 배정

Application Manager - Node Manager Application Master 상태관리
- Application Master: YARN에서 실행되는 하나의 Task 관리하는 마스터 서버

Resource Tracker - Container 라이브 체크를 위해 Application Master 재시도 횟수, 대기시간 설정관리
Node Manager - Container 리소스 사용량 모니터링, 관련 정보를 Resource Manager 통지, 노드당 개씩 존재

Application Master - 하나의 프로그램에 대한 마스터 역할 수행
- 스케줄러로부터 적절한 Container 할당받고, 프로그램 실행상태 모니터링

Container - CPU, Disk, Memory 등과 같은 속성으로 정의
- 테스크는 하나의 Containe안에서 실행

 

  1. Hadoop1.0 2.0, 3.0 비교

. 하둡1.0 2.0 비교

. 하둡1.0 맵리듀스와 하둡2.0의 얀 비교

구분 Map/Reduce YARN
역할
  • 리소스관리 및 애플리케이션 생명주기 모두 한 잡 트래커가 관리
  • 리소스관리자와 애플리케이션 마스터가 각각의 역할 수행
확장성
  • 타 애플리케이션 플러그인 불가
  • YARN API 이용하여 다양한 솔루션을 YARN에서 동작하는 애플리케이션으로 개발, 플러그인 가능
기능
  • Web
  • REST
  • HDFS
  • HDFS HA (고가용성)
  • HDFS Federation (연합)
  • HDFS 스냅샷
  • HDFS NFSv3 지원
고가용성
(High Availability)
NameNode SPOF(Single Point Of Failure, 단일 고장점) 고가용 공유 스토리지를 활용한 NameNode 이중화 (Active- Standby)
연합
(Federation)
  • 단일 NameNode 구성
  • 단일 Namespace(/)
  • 다중 NameNode 구성
  • NameNode Namespace관리
 

. 하둡 1.0, 2.0, 3.0 특징

버전 특징
하둡 1.0 * 분산저장, 병렬처리 프레임워크를 정의
 - 분산저장(HDFS) : 네임노드, 데이터 노드가 처리
 - 병렬처리(MapReduce) : 잡트래커, 태스트 트래커가 처리
* 클러스터당 최대 4000개의 노드를 등록
* 작업 처리를 슬롯(slot) 단위로 처리
 - , 리듀스 슬롯을 구분하여 처리
하둡 2.0 * YARN 도입하여 병렬 처리 구조를 변경
 - 클러스터 관리 : 리소스 매니저, 노드 매니저
 - 작업 관리 : 애플리케이션 마스터, 컨테이너
* MR Spark, Hive, Pig 다른 분산 처리 모델도 수행 가능
* 클러스터당 1만개 이상의 노드 등록 가능
* 작업 처리를 컨테이너(container) 단위로 처리
하둡 3.0 * 이레이져 코딩(Erasure Coding) 도입
 - 기존의 블록 복제(Replication) 대체하는 방식으로 HDFS 사용량 감소
* YARN 타임라인 서비스 v2 도입
 - 기존 타임라인 서비스보다 많은 정보를 확인 가능
* 스크립트 재작성및 이해하기 쉬운 형태로 수정
 - 오래된 스크립트를 재작성하여 버그 수정
* JAVA8 지원
* 네이티브 코드 최적화
* 고가용성을 위해 2개 이상의 네임노드 지원
 - 하나만 추가할 수 있었던 스탠바이 노드를 여러개 지원가능 스탠바이 노드
* Ozone 추가
 - 오브젝트 저장소 추가
global ResourceManager (RM) and per-application ApplicationMaster (AM).

 

 

 [참고] YARN기반 실행

  • Stom on YARN, 호튼웍스, Spark on YARN, Apache Giraph on YARN, HOYA(Hbase on YARN), 호튼웍스
  •  

 [참고] Hadoop2.0 활용한 배포판

  • 맵알(MAPR) 하둡 플랫폼, 호튼웍스 HDP 2.0, 클라우데라 CDH 4.0: 실시간 처리엔진 Impala SPARK 탑재

. [참고] 하둡 에코시스템

  • 하둡에는 보완적인 서비스들을 제공하거나 비즈니스에 적용할 수 있는 다양한 서브 프로젝트가 존재함
  • HDFS MapReduce 하둡의 코어 프로젝트, 나머지는 하둡의 하부 프로젝트이다

구성요소 설명
Core 분산 파일시스템으로 일반적인 입출력(직렬화, 자바 RPC, 영속데이터 구조)을 위한 컴포넌트와 인터페이스의 집합
Avro 교차언어 RPC 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템
MapReduce 범용 컴퓨터들의 커다란 클러스터에서 수행되는 분산데이터 처리 모델과 실행환경
HDFS 범용 컴퓨터들로 된 커다란 클러스터에서 수행되는 분산 파일 시스템
Pig 대규모 데이터셋 탐색용 데이터 흐름언어와 실행환경
HBase 분산 컬럼 지향 데이터베이스 스토리지로 HDFS 를 사용
ZooKeeper 다수 컴퓨터로 분산 처리되는 고가용성 조정 (available coordination) 서비스로, 분산 (Lock) 같은 프리미티브를 제공
Hive 분산 데이터웨어하우스, HDFS 저장된 데이터를 관리하고, 데이터 쿼리를 위하여 SQL 기반 쿼리 언어(런타임 엔진에 의해 맵리듀스로 변환되는) 제공
Chukwa 분산 데이터 수집 및 분석 시스템, HDFS에 데이터를 저장하는 수집기를 수행하고, 보고서를 생성하기 위해서 맵리듀스를 사용

 

반응형

'정보관리기술사 > DB_데이터분석' 카테고리의 다른 글

DB Table partitioning  (2) 2023.08.28
샤딩(Sharding) / Shard  (0) 2023.08.27
HDFS(Hadoop Distributed File System)  (0) 2023.08.25
Big Data 보안  (0) 2023.08.24
아파치 카프카(apache kafka)  (1) 2023.08.23

+ Recent posts