My Logs (14)

반응형


2018 한국 PyCon Tutorial 후기


뒤 늦게 한국 Pycon이 시작된다는 것을 알아서 등록 기간을 놓쳐 본 이벤트라고 할 수 있는 Conference는 놓쳤지만 아쉬운 마음에 Tutorial이라도 들어보기로 했다. Kaggle 관련한 Tutorial 이었는데, 최근 많이 사용되어지는 데이터 분석 (EDA, Feature enginerring, 모델링) 관련한 팁을 얻고자 하는 마음이었다. 장소는 삼성역 코엑스 센터였다. "Dive into diversity" 라는 문구가 행사의 슬로건인듯 했다.   



장소 : 삼성역 코엑스 2F 그랜드볼룸




튜토리얼 후기 


데이터 분석 관련하여 최근 많이 활용되는 방법들에 대한 유용한 정보들을 많이 얻었다. 특히, Feature Engineering 부분에서는 Label encoding, one hot encoding이나 모델에서 importance를 계산해서 차원을 축소하는 등의 기본적인 것을 제외하면 아는 것이 많이 없었는데, 최근 Kaggle에서 많이 쓰이는 방법들을 알 수 있어 좋았다. 예를 들어, frequency encoding, mean encoding 등이었다. 원래 값을 통해 새로운 feature를 생성하는 것이 성능을 높일 수 있다는 것이 신기했다. 


Feature Engineering은 크게, Tree 기반 모델이냐, Tree 기반 모델이 아니냐에 따라 그 방법이 달라진다. 특히 Tree 기반의 모델의 경우 categorial feature를 encoding 할 때, frequency encoding, label encoding 등을 사용한다. 하지만 label encoding 같은 경우, 타겟값과 전혀 상관 없는 값이 코딩되는 것이기 때문에 성능이 안 좋을 수 있다. 반면, frequency encoding 은 타겟값과 관련있는 값이 인코딩 되기 때문에 더 좋다고 할 수 있다. 반면 neural network의 경우, one hot encoding을 주로 하게 된다. 다만 one hot encoding은 차원이 커지는 문제가 존재한다. 특히 categorical feature를 제거하냐 안하냐를 선택할 때는 주로 feature에 따른 타겟값의 분포를 보고 선택한다. 카테고리에 따른 타겟값의 분포에 차이가 없다면 그 feature는 없어도 무방할 것이다. 특히 mean encoding의 경우 feature와 타겟값이 관련을 갖게 만들면서, 차원도 높이지 않는다는 두마리 토끼를 잡을 수 있는 방법이었다. 그래서 최근 많이 사용되는 categorical 변수의 feature encoding 방법이라고 한다.


또한 Kaggle에서는 Cross-validation이 매우 중요하다는 것을 깨달았다. cross-validation 이 잘못된다면, 모델의 성능을 잘못평가하는 것이 되어버리기 때문에 좋은 성적을 얻기 힘들다. 핵심은 validation set과 test set에서 변수들의 값의 분포를 동일하게 해야한다는 것이다. 그렇지 않다면 validation set에서 성능이 높더라도 test set에서의 성능을 보장하기 어렵다. 


머신러닝 관련한 부분에서는 역시 lightgbm, catboost, xgboost 등의 gradient boosting tree 계열의 알고리즘이 많이 사용된다고 하며, 좋은 성적을 낸 사람들은 대부분 stacking을 활용한다. stacking 같은 ensemble 알고리즘이 좋은 이유는 성능이 0.7짜리인 3개의 모델을 결합함으로써 0.8 이상의 성능을 갖는 모델을 만들 수 있다는 것이다. stacking을 어떻게 하느냐에 따라 leader board에서의 등수가 좌우되는 것 같았다.  


아래 코세라 강의에 Kaggle 관련한 많은 팁들이 있는듯하다. 

https://www.coursera.org/learn/competitive-data-science


반응형
반응형



진화 심리학의 대가 데이비드 버스가 쓴 이 책은 진화심리학의 내용을 매우 포괄적으로 담고 있다. 심리학이란 인간의 마음에 관한 학문이다. 진화 심리학의 큰 틀은 이러한 인간의 마음을 "진화적 관점"에서 이해하고자 하는 것이다. 그리고 인간의 마음을 진화적 관점에서 보고자 한다는 것은 합리적이다. 왜냐하면 인간의 마음도 결국 진화론에 따르면 긴 진화의 시간동안 환경에 적응한 결과로 볼 수 있기 때문이다. 인간의 마음은 결국 함수이다. 인풋이 있고, 이 인풋에 따라 아웃풋을 내놓는다. 이 책에서 이 함수를 "기제" 라고 부른다. 이 기제는 인간이 맞닥트려온 수많은 환경속에서 오랜 시간에 걸쳐 만들어진 진화의 산물이다.


진화론적 관점에서 인간 삶의 가장 중요한 이슈는 바로 생존과 번식이다. 생존과 번식이 중요한 이슈인 이유는 자신의 유전자를 영속적으로 보존하기 위해서는 생존과 번식이 필수적이기 때문이다. 진화심리학의 대부분은 이 생존과 번식의 관점에서 인간의 행동과 마음을 이해한다. 


왜 우리는 단 음식을 좋아할까? 왜 단 음식은 맛있게 느껴지고, 먹었을 때 기분이 좋아질까? 우리의 선조는 단 음식을 먹고 이를 통해 생존했으며, 한 가지 해석은 단 음식을 먹은 사람들이 더 많이 생존했기 때문에, 단 음식의 냄새를 좋다고 느끼도록 진화하게 되었다는 것이다.  왜 우리는 배우자의 외도에 질투를 느낄까? 책에 따르면 남자는 자신의 배우자의 단기적 외도에 민감하며, 여자는 배우자의 장기적 이탈에 민감하다. 진화론적으로 남자는 배우자가 낳은 아이가 자신의 아이인지 여부에 민감하도록 진화했다. 오랫동안 키워온 아이가 자신의 실제 아이가 아니라면, 자신의 유전자를 공유하지 않은 아이를 키운 것이 되므로 유전자의 입장에서 손해이기 때문이다. 이로 인해 남자는 진화적으로 배우자의 단기적 외도에 질투를 느끼도록 진화했다. 반면 여자의 경우 배우자의 다른여자와의 감정적 연결과 이에 따른 자신에 대한 장기적 이탈에 민감한데, 이 배우자가 다른 여자에게 빠져 자신에게 장기적으로 이탈하는 상황은 자신과 유전자를 공유한 아이를 키우기 힘든 상황에 직면하게 한다. 그렇기 때문에 여자는 남자의 단기적 외도보다는 장기적 이탈에 더 민감하고, 다른 여자와의 감정적 교류에 질투를 느끼도록 진화했다. 이 책은 이러한 사회 문제나 인간의 행동에 대한 연구 결과를 담고 있다. 이러한 연구 결과들은 진화론에 입각한 가설을 실제 데이터를 통해 통계적으로 검증한 연구들이다.


이처럼 진화심리학을 이해하면 수많은 사회적 현상과 인간의 마음을 이해할 수 있는 하나의 관점을 얻을 수 있다. 물론 이것은 "사실" 과는 다른 문제이다. 진화심리학이 사회의 모든 부분을 설명할 수는 없을 것이며, 또 진화심리학적 해설이 반드시 사실일 수는 없다. 하지만 이 세상의 문제에 대한 완벽한 해설이 없다고 가정했을 때, 진화심리학은 세상을 설명하는 합리적인 방법이 될 수 있다고 생각한다.


반응형
반응형



기술적 특이점이란 무엇인가?


레이 커즈와일이 2006년에 「특이점이 온다」 라는 책을 출간했을 때 많은 사람들이 그의 말도 안되는 예측을 비웃었습니다. 하지만 되돌아보면 커즈와일은 iPhone이 등장하기 1년전에 iPhone과 같은 기계가 나올 것을 예측하였습니다. 그리고 그는 가까운 미래에 인간과 컴퓨터가 본질적으로 융합하여 공상 과학 영화에 나올법한 엄청난 능력을 가질 수 있다고 말했습니다. 시간이 지날 수록 그가 예측했던 많은것들이 현실에서 실제로 일어나고 있습니다.


커즈와일이 주장하는 것은 사실 매우 간단합니다. 바로 "기술의 발전 속도는 지수적" 이라는 것입니다. (책에서는 "수확 체증의 법칙" 이라고도 말합니다.) 그리고 기술의 발전속도가 나중에는 거의 무한대에 가까워지게 되는데 이를 "특이점" (Singularity) 이라고 합니다. 그는 특별히 미래에 컴퓨터 기술이 엄청난 속도로 발전해 특히 3가지 분야와 융합하여 엄청난 가치를 창출할 것이라고 예측합니다. 그 3가지 분야는 바로 유전체학 (genomics), 나노기술(nanotechnology), 로보틱스(robotics) 분야입니다.


최근 일어나는 일들을 보면 커즈와일이 했던 예측이 그렇게 허황된 것이 아니라는 것을 알 수 있습니다. 얼마전 Deep mind의 Alphago가 바둑 챔피언 이세돌을 꺾었고, IBM Watson은 의학, 금융, 심지어 요리 분야에까지 점점 발을 넓혀가고 있습니다. 자율주행차는 2020년에 도로에 나올 것으로 예측되고 있습니다. 커즈와일의 예측대로 현재 기술의 발전 속도는 그 어느 때와도 비교할 수 없을 정도로 빠릅니다.



왜 특이점이 오는가?


1. 컴퓨터 연산 속도의 기하급수적 증가


최근 50년간 기술 산업은 "무어의 법칙" (Moore's Law)이라는 유명한 법칙에 의해 견인되어 왔습니다. 인텔의 공동 창업자 고든 무어의 예측인 무어의 법칙은 마이크로칩에 있는 트랜지스터의 숫자가 18개월에 2배씩 증가한다는 법칙입니다. 이러한 기술적 발전으로 초창기의 냉장고만한 컴퓨터를 점점 소형화시켜 현재의 손바닥만한 크기로 만들 수 있었던 것입니다. 


하지만 무어의 법칙은 이론적인 한계가 있죠. 아무리 작아져도 원자만큼 작아질 수는 없습니다. 무어의 법칙이 자연을 거스를 수는 없을 것입니다. 그래서 최근에는 무어의 법칙의 진행속도가 점점 느려지고 있습니다. 무어의 법칙은 2020년쯤에 멈출 것이라고 예상되고 있습니다. 


하지만 커즈와일은 마이크로프로세서가 정보처리의 새로운 패러다임이라고 말하며 진공관, 트랜지스터 등의 옛기술을 대체하고 있다고 말합니다. 즉, 정보처리 속도를 결정하는 것이 트랜지스터의 수 뿐만이 아니라는 것입니다. 양자 컴퓨팅(quantum computing), 뉴로모픽 칩(neuromorphic chips), 3D Stacking 과 같은 새로운 기술이 연산 속도를 빠르게 하고 있습니다. 커즈와일에 따르면 연산 속도(MIPS)는 실제로 기하급수적으로 증가해왔으며, 2045년 경에는 컴퓨터의 연산 속도가 모든 인간의 뇌의 연산 속도를 합친 속도보다 빨라질 것으로 예측됩니다.


2. 로봇 기술의 발전


1962년 GM 생산공정에 산업용 로봇 Unimate 가 등장한 이후, 자동화는 우리의 일상으로 침투해왔습니다. 1970년대의 ATM기계 2000년도의 자동 청소 로봇 등. 로봇은 점점 인간의 일을 대신 해왔습니다. 최근에는 "단순 반복 작업" 뿐만 아니라 인간만이 할 수 있다 믿었던 "창의적인 영역" 까지 침범하고 있습니다. 로봇에 의해 쓰여진 한 책은 얼마 전 일본의 Hoshi Shinichi Literary Award 에 정식으로 제출되었고 accept 되기까지 했습니다.


앞으로는 이러한 로봇의 발전은 더욱 가속화될 것입니다. 미국 국방부는 군인의 머리에 삽입하는 칩을 실험하고 있고, 일론 머스크는 이와 비슷한 기술을 상업화 하겠다고 말했습니다. 기술력이 기하급수적으로 증가함에 따라 기술력은 향후 20년간 수천배 이상 증가할 것으로 예상되고 로봇은 점점 더 많은 일을 해나갈 것입니다.



3. 유전자 공학의 발전

 

2003년, 과학자들이 인간 유전자의 전체 염기서열을 해독하였습니다. 비로소 생명체의 언어인 DNA를 분석할 수 있는 시대가 열린 것입니다. 이제 인간은 유전자가 DNA 상에 어디에 위치해있는지 알 수 있었고 그것의 기능을 추적할 수 있었습니다.  그로부터 2년 뒤, 과학자들은 CRISPR 라는 유전자를 싸고 쉽게 수정할 수 있는 기술을 만들었습니다. 이 기술을 통해 인간은 DNA를 수정하여 바이러스를 비활성화 시킨다거나, 유전자 변형 작물을 만들어낼 수 있었습니다.


미래에는 DNA의 수정을 통해 태어나기 전부터 아기의 지능, 외모, 눈 색깔을 변형시킬 수 있을 것입니다. 물론 이러한 것들에 대한 윤리적인 논쟁은 있겠지만요. 이렇게 공상영화에서나 볼법한 것들이 특이점에서는 "현실"이 될 것입니다. 커즈와일은 컴퓨터 기술과 유전자 기술이 발전함에 따라 인간은 영생을 누릴 수 있다고 말합니다. 심지어 불의의 사고로 죽어도 업로드한 기억을 복원하여 인간을 "소생" 시킬 수 있다고 합니다.



끝으로 


특이점이라는 개념은 흥미롭기도 무섭기도 합니다. 과연 현재 기술력보다 수천배 이상 발전한 시대는 어떤 모습일까요? 우리는 이러한 세상을 과연 상상할 수 있을까요? 우리는 얼마만큼 로봇을 '용인' 해야할 것이며, 어떤 유전자 조작을 허용하거나 막아야할까요? 특이점은 우리에게 어마어마한 가능성을 열어두고 있습니다. 하지만 한 가지 중요한 사실은 기술은 인간에 의해 창조되었고 소유된다는 것입니다. 특이점의 시대에 인간이 기술을 어떻게 활용하느냐에 따라 디스토피아가 될 수도 유토피아가 될 수도 있을 것입니다.



참고


반응형
반응형

이 책은 인종주의에 반대하는 책이다. 즉, 인종에 대한 선입견과 차별을 반대한다. '흑인은 지적으로 열등하다' 라거나, '아시아인은 소심하다' 와 같이 인종에 따라 사람을 평가해서는 안된다는 것이다. 이 책은 이와 같은 인종 차별적 연구 결과와 사람들의 선입견에 대해 유전체학으로 반론을 제기한다. (이 부분은 생물학적인 내용이 많이 들어가서 다소 어렵게 느껴졌다.) 이 책에 따르면 인종간의 차이를 정당화 할만한 유전적인 근거는 없다. 또한 만약 인종간에 유전적인 우열이 있다고 하더라도 이는 전체의 평균에 차이에 해당하는 것이므로 소속 공동체로 사람을 평가해서는 안되고 차별이나 계급을 정당화하여서는 안된다. 


이 책에서 저자의 결론은 아래와 같이 정리되었다.


  • 엄밀한 의미에서 인종은 생물학적 존재의의를 갖지 않는다.
  • 그렇지만 DNA를 통해 조상을 분류할 수는 있다.
  • 질병의 경우 인종에 따른 유전적인 영향이 있다. 하지만 그 탓을 100% 유전으로 돌리긴 어렵다.
  • '종'의 선천적 능력(흑인의 리듬감 등)은 과학적으로 증명하기 어렵다.


하지만 저자는 반인종주의도 반대한다. 왜냐하면 실제로 인종간에 드러나는 분명한 차이가 있기 때문일 것이다. 저자가 하고 싶은 말은 인종의 차이는 받아들이되, 그 차이를 평가해 증오와 대립의 동기로 삼지 말자는 것이다. 외면적으로 분명히 드러나는 차이를 외면한채 오로지 '다양성 존중' 이라는 명목하에 화합을 한다는 것은 위선이 아닐까. 오히려 그 차이를 분명히 인지한 채 포용하는 것이 진정한 화합이 아닐까 생각해 보았다. 

반응형