반응형

 

데이터과학이란 무엇인가?

 

데이터 과학이란 무엇인가? 사실 모든 학문, 산업 분야에서 "데이터" 는 필수적이다. 그런데 왜 "데이터" 과학이라는 이름을 따로 붙이는 걸까? 거기에 Science라니. 보통 Science라는 것은 새로운 지식을 찾는 활동, 즉, New finding에 대한 것을 Science라 한다. 하지만 데이터 과학에서 주로하는 것은 데이터를 처리하고 클리닝 하여 저장하고는 것, 즉 무언가를 개선 시키는 활동인 Engineering에 그치는 것 아닌가? 

 

데이터 과학자는 통계학자보다 컴퓨터를 잘하고, 컴퓨터과학자보다 통계학을 잘하는 사람이라는 우스갯 소리가 있다. 물론 어느 정도 맞는 부분이 있지만 데이터 과학은 단지 어떤 학문 분야들의 중간에 있는 것이 아니라 기존 학문들에서 다루지 않는 부분을 다루기도 한다. 데이터 과학의 정의, 기존 학문과의 차별점에 대해 짚어보자. 

 

최근 떠오르는 학문 분야들에 대한 농담

 

Data science의 정의

 

The term “data science” describes expertise associated with taking (usually large) data sets and annotating, cleaning, organizing, storing, and analyzing them for the purposes of extracting knowledge. It merges the disciplines of statistics, computer science, and computational engineering.

 

데이터과학이란 보통 큰 데이터셋에 대해 어노테이션, 클리닝, 핸들링, 저장, 분석을 하여 그로부터 유용한 지식을 추출하는 것을 말한다. 이는 Informatics와 비슷하다. Informatics 란 정보학으로 모든 데이터를 처리 분석하여 유용한 정보를 얻는 것이다.

 

Informatics와 Data science의 차이점은 무엇인가?

 

간단하게 말해 Data science는 "빅데이터시대"에 정의된 학문 분야로서 기존에 보기 힘든 정도의 큰 데이터를 다룬다는 특징이 있다. 데이터 과학자는 컴퓨터 메모리에 올라가지 않는 규모의 큰 데이터를 다루며 이를 위한 기술적인 지식이 필요하다. 이전에는 Informatics를 위해서 컴퓨터 프로그래머를 고용하여 해결하였다고 한다. 하지만 데이터 과학은 단순히 "프로그래밍" 으로 해결할 수 없는 많은 부분을 포함하고 있다. Informatics와 Data science의 여집합은 바로 이 부분에서 나온다. 또한 Data science는 단순 프로그래밍이 아니라 해당 분야의 지식에 대한 깊은 이해를 기본 가정으로 한다. 즉, 이를 다시 한 번 정리해보자.

 

Informatics와 Data science의 차이점

 

 

1. 데이터과학자는 컴퓨터 메모리에 올라가지 않는 수준의 빅데이터를 다룬다.

2. 데이터과학자는 메타데이터 및 large-scale annotation이 필요하며, 데이터의 noise가 어디에서 발생되었는지에 대해 설명할 수 있어야 한다. 이는 도메인에 대한 이해를 필요로 하며 단지 데이터를 정리하고 가공하는 것과는 다르다.

3. 이러한 빅데이터를 분석할 수 있는 방법론인 머신러닝, 딥러닝 등을 이해하고 이를 해당 분야의 데이터에 적용시켜 유용한 가치를 찾는다.

 

 
최근 많은 학교 교육 및 직업 교육에서 domain-free 데이터과학을 가르친다. 금융, 헬스, 생물 어떤 분야에도 통용할 수 있는 데이터 처리 기술이다. 물론 그것은 데이터 과학을 시작할 수 있는 "기초 단계"로서 유용하다. 하지만 단지 domain-free 데이터 과학만을 배우면 단지 데이터를 가공하고 매니지하는 사람에 그쳐버릴 수도 있다. (협업자의 엄청난 도움이 없다면) 하지만 domain에 대한 specific knowledge가 있으면 그 분야에 전문가이면서 데이터를 직접 처리하고 가공, 분석 할 수 있는 사람이 될 수 있다.  

 

데이터과학자에게 도메인 지식이 필수적인 이유는 다음과 같이 정리해볼 수 있다. 

 

1. 데이터에 무언가 문제가 생겼을 때,이를 해결하기 위해 필요하다.
2. 데이터의 annotation을 하기 위해서는 도메인 지식이 필요하다.
3. 문제를 찾고 이를 해결하기 위해서는 도메인 지식이 필수적이다.
 
 

 

빅데이터 시대의 대표적인 분석 방법론, 머신러닝

 
 
좋은 데이터 과학자란, 기존 Informatics 방법론으로는 다루기 힘든 수준의 복잡한 빅데이터를 다루며, 충분한 도메인 지식을 바탕으로 해당 분야의 데이터를 스스로의 계획을 통해 처리, 가공을 하며, 메타 데이터 annotation을 직접하며, 해당 분야의 문제를 찾고 이를 해결할 수 있는 사람이다.  어떤 도메인을 깊게 공부하고 그 데이터에 대해 즉각적으로 이해하고 데이터를 어떻게 처리하고 굴려서 분석할지를 정하는 데에 좋은 결정력을 갖고 있는 사람이다. 어떤 한 분야의 domain 지식을 가질 때 그 분야의 문제를 찾고, 직접 데이터를 처리하고 적절한 분석 방법을 통해 분석하여 해결할 수 있는 사람이 된다. 
Biomedical Data science 를 예로 들어보자.

 

Biomedical science 분야는 Bio와 medical이 합쳐진 분야이다. 즉, 생물학과 의학이 합쳐진 분야로 생물학, 의학 분야의 "과학적 발견"을 주로 population health에 응용하는 응용학문이다. 이러한 Biomedical 분야는 데이터를 통해서 무언가를 할 수 있다. 따라서 Biomedical 분야를 연구하려면 기본적으로 데이터를 가공하고, 클리닝하고, 분석할 수 있어야한다. 그러면 Biomedical data science라는 용어는 왜 존재하는가? 

 

Biomedical 분야의 데이터를 다음 세 가지로 크게 나눌 수 있다.

 

1. DNA 시퀀싱 데이터 (NGS 데이터)

2. 센서 데이터 (심박수, electrocardiogram signal 등)

3. Electronic health record (개인의 건강 임상 정보)

 

이러한 종류의 데이터는 소위 말하는 4v(Volume, Variety, Velocity, Value)를 만족하는 "빅데이터" 이다. 이러한 정보를 가공하고 분석하기 위해서는 특별한 skill set이 필요하다. NGS 데이터를 예로 들어보자. NGS는 새로운 인간 DNA의 시퀀싱 방법으로 massive parallele sequencing이라고 하는 특별한 시퀀싱 방법을 통해 인간 DNA 서열을 "추측"한다. 이 기술의 상당한 발전이 이루어져 정확도는 상당히 높지만, 중요한 것은 뚝딱하고 ATCG로 이루어진 DNA의 서열이 나오지 않는다는 것이다. 또 DNA 서열은 30억개 정도가 되기 때문에 한 글자당 4비트라고 놓고 계산을 하더라도 1GB 이상의 크기이며, 실제 NGS 분석에서 나오는 Raw 데이터는 1인당 200GB에 이른다. (참고)  따라서 이러한 특별한 종류의 NGS 데이터를 통해 인간 DNA 서열을 조립하고, 이곳에서 변이(variant)를 탐색하고 질병과의 연관성을 분석하는 것은 상당한 도메인 지식을 필요로 한다. Biomedical data science란 이러한 종류의 데이터를 직접 가공, 클리닝하여 이를 분석하고 유용한 지식을 탐색하는 활동이라고 할 수 있다. 

 

Reference

[1] What is Biomedical Data Science and Do We Need an Annual Review of It ? - Annual review of biomedical data science, 2018

반응형