경영학

빅데이터 특징, 3V, 5V, 7V, 빅데이터 3요소, Volume(규모), Variety(다양성), Velocity(속도), Veracity(정확성), Value(가치), Valiaity(정확성), Volatility(휘발성)

Jobs 9 2024. 4. 20. 08:55
반응형

Volume(규모), Variety(다양성), Velocity(속도), Veracity(정확성), Value(가치), Valiaity(정확성), Volatility(휘발성), 빅데이터 특징, 3V, 5V, 7V

 

빅데이터

기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술.

간단하게 말하면 여러 형태의 많은 데이터를 잘 처리해서 가치를 만들어 내는 것

 

기존 데이터와의 차이

  • 다양한 방법으로 수집된 여러 형태의 데이터 집합을 의미하지만, 비정형화된 데이터에 초점
  • 병렬 처리를 위한 컴퓨터 시스템들이 필요할 정도의 큰 데이터셋
  • 가치 창출에 의미가 있으며 이를위해 타당성(Validity), 신뢰성(Veracity) 확보에 노력
  • 단기간 활용보다는 장기적 활용에 초점

빅데이터 특징

초기 빅데이터의 특징은 Volume(규모), Variety(다양성), Velocity(속도)로 3V

  • Volume (규모) : 데이터의 크기(저장되는 물리적 데이터양)
  • Variety (다양성) : 다양한 종류의 데이터를 수용하는 특성
  • Velocity (속도) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성

여기서 Variety (다양성)의 다양한 종류의 데이터는 아래를 포함

  • 정형 데이터(Structured data) : 규칙이 잡혀있는 데이터, 스키마 구조를 가지고 있는 데이터. 관계형 데이터베이스(RDB), 스프레드시트, CSV 등이 있습니다. 주로 MySQL과 같은 관계형 데이터 베이스(RDBMS)를 통해 관리. 비교적 쉽게 의미를 파악할 수 있다.
  • 비정형 데이터(Unstructured data) : 정해진 규칙이 없으며 연산도 불가능한 데이터. 예를들면 영상, 이미지, 음성 등. 빅데이터의 탄생에 비정형 데이터가 큰 역할을 수행했는데, 그 이유는 그동안 분석하기 힘들었던 비정형 데이터를 분석함으로써 새로운 인사이트와 가치를 창출했기 때문. MongoDB같은 NOSQL데이터 베이스를 통해 관리.
  • 반정형 데이터(Semi-structured data) : 정형과 같이 형태가 있지만 연산이 불가능한 데이터. 대표적으로 JSON,HTML,XML,로그 형태가 있다. MongoDB같은 NOSQL데이터 베이스를 통해 관리.

빅데이터를 통한 가치 창출이 중요해지면서 3V에 Veracity(정확성)과 Value(가치)가 추가되어 5V

  • Veracity (진실성) : 데이터의 신뢰성과 타당성에 관한 특성. 방대한 양의 데이터를 분석하여 일정한 패턴을 추출할 수 있다. 그런데, 이 패턴이 오류나 노이즈로 인한것이 아니라 데이터의 특징이라고 신뢰할 수 있어야 한다. 데이터가 많아질수록 엉터리 데이터도 커질 가능성이 높아지기 때문이다. 따라서 빅데이터를 수집할 때 분석할 만한 가치가 있는지 살펴야 할 필요성이 생겼고, 이런 측면에서 Veracity가 제시되었다.
  • Value (가치) : 빅데이터는 결국 비즈니스나 연구에서 유용한 가치를 이끌어낼 수 있어야 그 의미가 있다. 데이터를 수집할 때 그 데이터를 활용하여 무엇을 할 수 있을지에 대한 고민이 필요.

최근에는 여기에 Valiaity(정확성), Volatility(휘발성)이 추가되어 7V

  • Validity (정확성) : 데이터의 정확성을 의미. Veracity와 Validity는 비슷한 개념. 데이터에 Veracity가 없다면 노이즈와 바이어스로 인해 잘못된 결론을 이끌어 낼 수 있으며, Validity가 없다면 데이터의 규모가 크더라도 쓸모가 없다. 예를들어 개와 고양이 사진에서 Labeling이 잘못된 데이터라면 Validity가 없는 것이고 노이즈가 많아 개와 고양이의 특징이 없다면 Veracity가 없는 것이다.
  • Volatility (휘발성) : 데이터가 얼마나 오래 저장될 수 있고 사용될 수 있을지에 관한 것이다. 아무리 데이터의 양이 많고 잘 정리되어 있더라도 몇 년만 지나면 의미가 없어지는 유형의 데이터거나, 데이터의 양이 가진 자원에 비해 너무나도 커서 이를 오래 저장하는 것이 힘들다면 빅데이터로서의 활용성을 점검해보아야 할 것이다. 빅데이터는 단기적으로 활용하기 보다는 장기적인 관점에서 유용한 가치를 창출할 수 있어야 한다.

 


 Q 
  빅데이터(Big Data)의 대표적 특징인 3V에 해당하지 않는 것은?

 

① 변동성(Variability)
② 규모(Volume)
③ 다양성(Variety)
④ 속도(Velocity)

【해설】 정답 

빅데이터 특징, 3V, 5V, 7V

Volume(규모), Variety(다양성), Velocity(속도)

+ Veracity(정확성), Value(가치)

+ Valiaity(정확성), Volatility(휘발성)

 


잡스9급
 PDF 교재

 

✽ 책 구매 없이 PDF 제공 가능
✽ adipoman@gmail.com 문의
 
유튜브 강의

반응형