본문 바로가기
리뷰

[인공지능의 기초] Big data 이해

by 고닝챌린지 2022. 8. 17.

빅데이터 학문적 시초가 무엇인지 아시나요??? 게놈 프로젝트라고 합니다.

그 시절에 빅데이터를 통해 인간 몸속의 유전 정보를 가지고 있는 게놈을 해독하여 유전자 지도 작성 및 배열 분석이 가능할 수 있었던 것입니다. 

그럼 오늘 출근하기 전에 인공 지능의 가장 기초적인 빅데이터에 대해 간단히 정리해보겠습니다. 

 


인공지능의 기초 - Big data의 이해

직접 만든 '빅데이터의 이해' 썸네일

 목차
1. 빅데이터의 이해와 분석
2. 빅데이터의 3V
3. 데이터 사이언스란
4. Data 처리 프로세스

1. 빅데이터 이해와 분석

 빅데이터란 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 활용하는 데이터 규모에 중점을 둔 정의를 말한다 (Mckinsey&Company *2011)

 또한 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 · 발굴 · 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다 (IDC *2011)

 

2. 빅데이터의 3V

2-1. 양 (volume)
ㆍ 특징 : 데이터의 규모 측면
ㆍ 언어 : 센싱 데이터 , 비정형 데이터
2-2. 속도 (velocity)
ㆍ 특징 : 데이터 수집과 처리 측면
ㆍ 언어 : 원하는 데이터의 추출 및 분석 속도

2-3. 다양성 (variety)
ㆍ특징 : 데이터 유형과 소스 측면
ㆍ언어 : 정형 , 비정형 데이터 영상 , 사진


3. 데이터 사이언스

데이터로부터 의미 있는 정보를 추출해내는 학문이며, 다양한 유형의 모든 데이터를 대상으로 한다. 
분석, 구현, 전달까지 모두 포함한 포괄적 개념으로 데이터 공학, 수학, 통계학 등 해당 분야의 전문 지식을 종합한 학문이다. 

 

데이터 사이언티스트의 요구 역량
  • Hard Skill
    ① 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
    ② 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 
  • Soft Skill → 통찰력 있는 분석에 상당히 중요한 요소
    ① 통찰력 있는 분석 : 창의적인 사고, 호기심, 논리적 비판
    ② 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
    ③ 다분한 협력 : 커뮤니케이션
요약정리 1
1) 빅데이터의 이해
ㆍ빅데이터의 정의 : 3V(Volume, Value, Variety)
ㆍ빅데이터가 만들어내는 본질적인 변화
   : 사전처리 → 사후처리 , 표본조사 → 전수조사 , 질 → 양 , 인과관계 → 상관관계
2) 빅데이터 활용 기본 테크닉 전략 인사이트 도출을 위한 필요 역량
ㆍ데이터 사이언스 구성요소 : Analytics, IT, 비즈니스 분석
ㆍ데이터 사이언티스트의 요구 역량 : Hard skill + Soft skill

4. Data 처리 프로세스

4-1. 정형 data 처리 프로세스
- 정형 data : 즉시 통계적 분석에 사용될 수 있을만한 형태로 정리되고 가공된 데이터
다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 필요에 의해 다른 곳으로 이동하는 것

 

4-1-1. ETL(Extraction, Transformation and Load)

하나 또는 그 이상의 데이터 원천들로부터 데이터 획득

데이터 클렌징 · 형식 변환 · 표준화 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 등 변형 단계의 처리가 완료된 데이터를 특정 목표 시스템에 적재

 

4-1-2. CDC(Change Data Capture)

 데이터에 대한 변경을 식별해 데이터 전송 공유 등의 후속 처리를 자동화하는 설계 기법

  • Push 방식 : 데이터 원천 (Source)에서 변경을 식별하고 대상 시스템 (Target)에 변경 데이터를 적재
  • Pull 방식 : 대상 시스템 (Target)에서 데이터 원천 (Source)을 정기적으로 살펴보아 필요시 데이터를 다운로드

 

4-1-3. EAI(Enterprise Application Integration)

기업 정보 시스템들의 데이터를 연계 · 통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크
기업 내 각종 애플리케이션 간의 상호 연동이 가능

  • EAI 활용 효과
    -지역적으로 분리된 정보 시스템들 간의 데이터 동기화 협력사 · 파트너 · 고객과의 상호 협력 프로세스 연계
    - 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대 확립
    - 기업 정보 시스템의 지속적 발전 기반 확보


4-2. 미정형 Data 처리 프로세스
- 대용량 로그 데이터 수집

 

4-2-1. 로그 (log) 

용량이 방대하기 때문에 분석을 하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다

  • 예시 : 아파치 Flume NG, 페이스북 Scribe
  • 특징 : 대규모 분산 병렬 처리

4-2-2. 하둡 (Hadoop)

분산 병렬 처리의 업계 표준인 맵리듀스 시스템과 분산 파일 시스템인 HDFS(Hadoop Distributed File System)
를 핵심 구성요소로 가지는 플랫폼 기술

  • 특징 
    ㆍ선형적인 성능과 용량 확장
    ㆍ고장 감내성 : 데이터를 HDFS에 3 중 복제
    ㆍ핵심 비즈니스 로직에 집중 가능
    ㆍ풍부한 에코 시스템
요약정리 2
1) 정형 Data 처리 프로세스
ㆍ ETL(Extraction, Transformation and Load)
ㆍ CDC(Change Data Capture)
ㆍ EAI(Enterprise Application Integration)
2) 미정형 data 처리 프로세스 - 대용량 로그 데이터 수집
ㆍ대규모 분산 병렬 처리를 위한 하둡
ㆍ대표적인 데이터 연동 시스템 , 스쿱 
ㆍ SQL을 이용한 질의 기술 하이브와 실시간 질의 분석 기술 등장 

 

이 글은 AI 아카데미를 통해 공부한 내용을 정리하였습니다.

혹시라도 수정할 부분이 있으면 알려주세요 :) 


내용 정리를 하던 중 데이터 사이언티스트 요구 역량 내용이 인상 깊었습니다. 

저도 비슷한 분석 업무를 하고 있는데, DATA 해석 능력보다 커뮤니케이션 능력이 중요하다고 느낄 때가 많습니다. 

어쨌든 역량을 꾸준히 발전시키기 위해 노력해야겠습니다.

댓글