반응형

7v로 알아보는 빅데이터의 정의 및 데이터셋과의 차이점


Big data is a term used to refer to data sets that are too large or complex for traditional data-processing application software to adequately deal with.


Wikipedia의 정의에 따르면 빅데이터는 전통적인 데이터 프로세싱 소프트웨어로 다룰 수 없는 큰 규모의 데이터셋을 말합니다. 



데이터를 저장하는 방식은 과거 추억의 아날로그 저장형태 (비디오 테이프, 레코드판, 카세트 테이프, 인쇄 책 등)으로부터 디지털 저장형태(하드디스크, CD, SSD 등)로 변화하였습니다. 인간은 기하급수적으로 발전한 데이터 저장 기술을 통해 엄청난 양의 데이터를 생성하고 이를 저장할 수 있는 기술을 갖게 되었습니다. 2010년대 들어서는 빅데이터라는 말이 심심찮게 들려왔습니다. 그리고 오늘날, 빅데이터라는 말을 한 번도 들어보지 않은 사람들이 없을 정도로 미디어에서 빅데이터라는 말은 일반적인 용어가 되어가고 있습니다. 그렇다면 도대체 빅데이터란 어떻게 정의될까요? 그 이름에서처럼 단순히 큰 데이터를 빅데이터라고 하는걸까요? 빅데이터와 비슷하면서 과거부터 써왔던 용어는 데이터셋이라고 볼 수 있습니다. 그렇다면 그냥 데이터셋과 빅데이터의 차이점은 무엇일까요?


출처 - https://www.ibmbigdatahub.com/infographic/four-vs-big-data


빅데이터는 원래 3v (volume, variety, velocity) 로 정의되었었습니다.  여기에 veracity, value가 추가되면서 보통 5v로 많이 불립니다. 하지만 여기에 validity와 volatility를 추가하여 7v로 부르기도 합니다. 이것은 정의하기 나름이기 때문에 정답이란 없다고 볼 수 있습니다. 이번 포스팅에서는 이 7v로 빅데이터의 개념을 설명하고, 일반적인 데이터셋과 무엇이 다른지를 풀이해보는 시간을 가져보겠습니다.



빅 데이터의 정의 (7v)


1. Volume

빅데이터란 우선, 그 이름에서도 알 수 있듯, 양이 큰 데이터를 말합니다. 과거에는 사람이 데이터를 만들었지만, 현시대에서는 데이터가 기계로부터 자동으로 생성되어져 나옵니다. 그렇기 때문에 데이터의 크기가 커집니다. 과거에는 사람들이 병원에 오면, 이를 병원 직원이 병원의 데이터 시스템에 입력을 해주었습니다. 현재는 이 뿐 아니라 개인의 생체 검사 정보, 의학 영상 정보, 또한 개인의 유전체 정보까지 수많은 종류의 데이터가 여러 플랫폼에 저장되고 있습니다. 이는 예를 들어, 과거의 텍스트 데이터로부터 다양한 멀티미디어 데이터(ex. SNS 로부터 수집되는 수많은 사진, 동영상 등의 정보)로 시대가 변화하였음을 의미합니다.


2. Variety

빅데이터란 그 종류가 매우 다양합니다. 이는 다양한 Source로 부터 정형(Structured), 비정형(Structured) 데이터가 수집되는 것을 의미합니다. 예를 들어, 은행의 거래 시스템 정보는 정형화된 데이터입니다. 누가 누구한테 얼마를 보냈냐는 정보가 정형화된 형테로 데이터베이스에 들어있습니다. 하지만, 빅데이터라는 것은 이 뿐아니라 예를 들어, 의사의 손글씨 데이터, 사람의 음성 데이터 등 정형화 되지 않은 데이터까지 포함하는 의미합니다. 이러한 것들을 가공, 분석하기 위해서는 특별한 기술이 필요합니다.  


3. Velocity

빅데이터는 데이터가 수집되는 속도가 매우 빠릅니다. 데이터가 수집의 원천은 비지니스, 기계, 네트워크, 소셜미디어, 모바일 기기 등 다양해지고 있으며, 이러한 데이터들의 흐름은 그 양이 크고, 연속적입니다. 이러한 real-time 데이터가 비지니스 혹은 연구자들이 의사결정 (decision making)할 때 도움이 되고 있습니다. 


4. Veracity

Volume이나 Velocity가 있더라도, 그것이 빅데이터라고 불릴 수 없는 것은 아닙니다. 주로 진실성이라고 번역하는 Veracity는 빅데이터셋이 얼마나 신뢰할 수 있는지를 의미합니다. 만약 빅데이터에 수많은 노이즈와 바이어스가 있어, 이를 적절히 처리할 수 없을 때에는 이를 통해 유용한 가치를 만들어낼 수 없을지도 모릅니다. 빅데이터는 Veracity를 확보하는 것이 중요하지만, 빅데이터에서의 노이즈와 오류는 종종 피할 수 없는 것이기도 합니다. 따라서 필요없는 정보를 삭제  (processing 또는 cleaning) 해야할 수도 있습니다. 이것이 빅데이터를 다루는 사람이 도메인 지식을 가지거나, 관련 도메인 지식을 갖은 사람들과 협업이 필요한 이유라고 할 수 있습니다.  


5. Validity

Validity의 개념은 그 데이터의 정확성을 의미합니다. 데이터가 타당한지 정확한지 여부는 어떠한 결정을 내리는데 중요합니다. Veracity와 Validity는 비슷한 개념이나, 데이터에 Veracity가 없다면, 노이즈와 바이어스로 인해 잘못된 결론을 이끌어낼 수 있으며, Validity가 없다면 데이터는 규모가 크더라고 쓸모가 없어집니다. (참고) 예를 들어, 개와 고양이 사진 DB을 예로 들어보면, 개와 고양이 사진에 기술적 결함으로 생겨난 인공적 노이즈가 많다면, Veracity가 없는 것입니다. 하지만, 개와 고양이의 Labeling이 잘못된 데이터라면 Validity가 없는 것입니다. 


6. Volatility

Volatility란 휘발성으로 번역되며, 데이터가 얼마나 오래 저장될 수 있고, 타당하여 오랫동안 쓰일 수 있을지에 관한 것입니다. 아무리 데이터의 양이 많고 깔끔하게 정리되어있더라도 몇 년만 지나면 의미가 없어지는 유형의 데이터이거나, 데이터의 양이 가진 자원에 비해 너무나도 커서 이를 오래 저장할 수 없는 환경을 마련하는 것이 힘들다면 빅데이터로서의 활용성을 점검해보아야할 것입니다. 빅데이터는 단기적으로 활용하기 보다는 장기적인 관점에서 유용한 가치를 창출할 수 있어야합니다.


7. Value

빅데이터는 결국 비즈니스나 연구에 사용되며 유용한 가치를 이끌어낼 수 있어야 그 의미가 있습니다. 마지막 Value 는 이러한 빅데이터의 가치를 의미합니다. 최근 많은 빅데이터 관련 initiative가 나오고 있는데, 빅데이터를 설계하고 그것을 수집하기 전에 그 데이터를 활용하여 무엇을 할 수 있을지에 대한 고민이 먼저 필요할 것입니다. 


2016년에 언급된 빅데이터 정의

A 2016 definition states that "Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value".

빅데이터란 Volume, Velocity, Variety로 특징지을 수 있는 정보 자원이며, 이를 활용하여 기술 및 분석 방법에서의 가치를 얻을 수 있어야합니다. 


2018년 언급된 빅데이터 정의

A 2018 definition states "Big data is where parallel computing tools are needed to handle data", and notes, "This represents a distinct and clearly defined change in the computer science used, via parallel programming theories, and losses of some of the guarantees and capabilities made by Codd’s relational model."

빅데이터는 그것을 다루기 위해 병렬 컴퓨팅 툴이 필요할 정도의 데이터를 말합니다.


빅데이터의 정의는 시대에 따라달리지고, 또 이를 해석하는 분야, 사람에 따라 달라질 수 있습니다. 하지만 공통적으로 많은 사람들의 동의하는 정의가 바로 위의 정의들이라고 볼 수 있습니다. 이러한 관점에서 빅데이터와 기존 데이터셋의 차이점은 바로 다음과 같이 정리해볼 수 있습니다.


1. 빅데이터는 다양한 소스로부터 수집된 데이터를 이르지만 이 중, 비정형화된 데이터(Unstructured data)에 더 초점을 맞춥니다.

2. 빅데이터는 병렬 컴퓨터의 필요할 정도의 큰 데이터셋을 말합니다. 

3. 빅데이터는 비지니스 혹은 연구에서 유용한 가치를 창출하여야 합니다.

4. 빅데이터는 타당성 (Validity), 신뢰성(Veracity)이 확보되어야합니다. 하지만 이것은 힘들 수도 있습니다.

5. 빅데이터는 오랫동안 저장되어 가치를 창출할 수 있어야하며, 단기간 활용보다는 장기적 활용에 초점을 맞춥니다.  


반응형