'Data science' 카테고리의 글 목록 (3 Page)

Data science (105)

[ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ ··· ] [ 11 ]

Data science/Machine Learning

Scikit-learn Gradient Boosting 모델 예측값이 매번 달라지는 문제와 해결

2020. 1. 30. 16:14

Scikit-learn Gradient Boosting 모델 예측값이 매번 달라지는 문제와 해결

아래 코드는 k-fold cross-validation 을 통해 best parameter 를 찾은 후, test set 에 대해 예측하는 코드이다. 이 코드에서 random_state=2020 을 지정하지 않으면, GridSearchCV 를 통해 구한 best parameters set이 매번 달라졌다. 즉 이말은 Gradient Boosting Tree 가 fitting 할 때마다 달라진다는 뜻이다.

def cv_and_prediction(x_vars, name, model=False):

    train_x = metadata_valid[x_vars]

    train_y = metadata_valid["case"]

    test_x = metadata_test[x_vars]

    test_y = metadata_test["case"]



    model = GradientBoostingClassifier(random_state=2020)

    param_test = {

        "n_estimators": range(50, 100, 25),

        "max_depth": [1, 2, 4],

        "learning_rate": [0.0001, 0.001, 0.01, 0.1],

        "subsample": [0.7, 0.9],

        "max_features": list(range(1, len(x_vars), 2)),

    }



    gsearch = GridSearchCV(

        estimator=model,

        param_grid=param_test,

        scoring="roc_auc",

        n_jobs=4,

        iid=False,

        cv=5,

    )



    gsearch.fit(train_x, train_y)



    print(name)

    print("Best CV Score", gsearch.best_score_)

    print("Best Params", gsearch.best_params_)



    model = GradientBoostingClassifier(**gsearch.best_params_)

    model.fit(train_x, train_y)

    metadata_test[name] = model.predict_proba(test_x)[:, 1]

        

    return model

왜 이런문제가 발생하는가 ?

Decision trees can be unstable because small variations in the data might result in a completely different tree being generated. This problem is mitigated by using decision trees within an ensemble.

The problem of learning an optimal decision tree is known to be NP-complete under several aspects of optimality and even for simple concepts. Consequently, practical decision-tree learning algorithms are based on heuristic algorithms such as the greedy algorithm where locally optimal decisions are made at each node. Such algorithms cannot guarantee to return the globally optimal decision tree. This can be mitigated by training multiple trees in an ensemble learner, where the features and samples are randomly sampled with replacement.

구글링을 통해 문제가 발생할 수 있을만한 원인을 찾았다.

1. 우선 Decision tree 를 적합하는 방법은 heuristic algorithm (greedy algorithm) 이다. 왜냐하면 optimal 한 decision tree 를 찾는 것은 np-complete 문제이기 때문이다. 하지만 직접적인 문제는 아닌듯하다. greedy 한 방법으로 tree 를 만들더라도 매번 같은 greedy 한 방법을 이용하면 같은 tree 가 생성되기 때문이다.

2. Gradient Boosting 과 같은 ensemble 방법에서는 매 iteration 마다 subsample 을 만들어서 negative gradient 를 예측하는 모델을 만들어서 합치게 되는데 이 때, subsample 이 random 하게 설정되기 때문에 매 번 모형이 달라지고 이로 인해 예측 값이 조금씩 달라지게 된다.

정확한 원인이 무엇이든 Gradient boosting tree 를 만드는 것에는 randomness가 있으며 reproducible 한 코드를 작성하고 싶으면 GradientBoostingClassifier(random_state=2020) 와 같이 random_state 를 지정해야한다.

참고

https://scikit-learn.org/stable/modules/tree.html#tree

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

Positive-unlabeled learning 기초 개념 (0)	2022.08.05
Semi-supervised learning 의 개념 (0)	2022.06.13
구글 번역기의 놀라움 (0)	2020.01.27
One shot learning, Siamese Network 이해 (1)	2019.12.31
AI 분야의 Top conference 리스트 (1)	2019.11.16

Data science/Machine Learning

구글 번역기의 놀라움

2020. 1. 27. 18:11

구글 번역기는 하나의 긴 문장을 두 개의 문장으로 쪼개주기도 한다.

임상 정보 기반 위험도 평가부는 임상 정보와 유전체 정보에 따른 위험도를 산출하는 모듈로, 유전체/가족력 정보를 통해 대상자를 몇 가지 표현형 (phenotype) 으로 나눈 후, 각 표현형의 나이에 따른 유방암 발생 확률에 임상 정보를 통해 추정한 상대 위험도 (relative risk)를 곱하는 방법을 통해 위험도를 산출한다.

The clinical information-based risk assessment unit is a module that calculates the risk according to clinical information and genomic information. After dividing the subject into several phenotypes through genome / family history information, the risk of breast cancer according to the age of each phenotype and clinical It is calculated by the squared relative risk estimated from the information.

빠르게 영문 번역해야할 일이 있어 번역기의 도움을 받았는데 정말 좋은 것 같다. RNN seq to seq 의 개념에서 마침표를 하나의 단어로 인식한다면 기술적으로 불가능한것은 아니겠지만 어떻게 트레이닝을 했을지 정말 놀랍다.

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

Semi-supervised learning 의 개념 (0)	2022.06.13
Scikit-learn Gradient Boosting 모델 예측값이 매번 달라지는 문제와 해결 (0)	2020.01.30
One shot learning, Siamese Network 이해 (1)	2019.12.31
AI 분야의 Top conference 리스트 (1)	2019.11.16
딥러닝 분야별 State-of-the-art (SOTA) 브라우저 (0)	2019.11.16

Data science/Machine Learning

One shot learning, Siamese Network 이해

2019. 12. 31. 19:07

One shot learning, Siamese Network 이해

Problem Definition

이미지 인식 분야에서 각 label 의 이미지 수가 적을 때 이를 인식하고 분류하는 것은 challenging 합니다. 예를 들어 얼굴 인식 분야에서는 단 몇 장의 이미지만을 통해 동일인인지 여부를 구분해야하는 문제가 있습니다. 물론 augmentation 과 같은 방법으로 샘플 수를 늘려서 CNN 으로 multi-class classification 문제를 풀도록 학습시키는 방법이 가능합니다. 하지만 이 경우, 새로운 사람이 데이터 베이스에 추가되었을 때, 모델을 새로 학습해야한다는 문제가 생깁니다. 즉, 실시간 시스템에 적합하지 않은 방법입니다.

이러한 문제를 해결하는 한 가지 방법은 "Distance function" 을 이용하는 것입니다.

D(x_1, x_2) = degree of difference between images

Distance function 을 이용해, 예를 들어, D(Image1, Image2) <= k 인 경우 같은 사람이라고 예측하고, > k 인 경우 다른 사람이라고 예측할 수 있습니다. 또는 DB 에 있는 모든 Image 에 대해사 distance 를 계산한 후에 가장 distance 가 작은 사람으로 분류할 수 있습니다. 이러한 아이디어의 의미는 face recognition 에서는 누구인지 구분하는 것보다 "동일인지 여부" 가 중요하다는 것입니다. 또한 이를 이용해 multiclass classification 을 할 수도 있습니다. 이는 아이디어 측면에서 머신러닝의 고전적인 방법인 nearest neighbor 방법과 비슷합니다. 본 포스팅은 Distance function 의 인풋으로 넣기 위한 representation 을 만드는 함수 f 를 딥러닝으로 학습하는 방법에 관한 것입니다. 이미지의 distance 를 계산하기 위한 representation learning 개념입니다.

Siamese Network + Triple loss

Our approach is to build a trainable system that nonlinearly maps the raw images of faces to points in a low dimensional space so that the distance between these points is small if the images belong to the same person and large otherwise. Learning the similarity metric is realized by training a network that consists of two identical convolutional networks that share the same set of weights - a Siamese Architecture (Sumit Chopra, 2005, CVPR)

함수 f 를 딥러닝 방법을 통해 학습할 수 있는 한 가지 방법은 Siamese network 을 이용하는 것입니다. Siamese network 는 2005년에 CVPR 에 발표된 방법으로, weights 를 공유하는 두 개의 CNN 입니다. 이 CNN은 Image1과 Image2를 f(Image1) 과 f(Image2) 라는 vector representation 으로 변환시킵니다. 그리고 f 를 학습시키기 위해 loss function 을 정의하고, distance 를 나타낼 수 있는 representation 을 만드는 방향으로 weights가 학습됩니다. 이미지1과 이미지2의 distance 를 f(Image1)과 f(Image2)의 l2 norm 으로 정의해봅시다.

$$ D(x_1, x_2) = ||f(x_1) - f(x_2) || ^2 $$

loss function 으로 사용할 수 있는 한 가지는 Triplet loss 입니다. Triplet loss 는 3개의 이미지로부터 loss function 을 만드는 방법이며, 아이디어는 같은 사람의 이미지의 distance 가 다른 사람의 이미지의 distance 보다 작아지도록 하자는 것입니다. 이는 기술적으로 D(Anchor, Positive) 가 D(Anchor, Negative) 보다 작아지도록 잡자는 것입니다. 이 때, Anchor 와 Positive 는 같은 사람의 다른 이미지이고, Negative 는 Anchor, Positive 와 다른 사람입니다. 이 때, alpha 라는 margin 을 주어 충분한 차이가 벌어지도록 합니다.

이러한 아이디어를 이용해 실제로 정의되는 triplet loss 는 아래와 같습니다.

$$ L(A, P, N) = max(||f(A) - f(P)||^2 - || f(A)-f(N) || ^2 + \alpha, 0) $$

실제 배치 트레이닝시 loss 는 아래와 같이 계산될 것입니다. m 은 배치 샘플 수입니다.

$$ J = \sum^{m}_{i=1} L(A^i, P^i, N^i) $$

Triplet loss 의 문제는, A, P, N 을 random 하게 골랐을 때, loss 가 0이 되는 것이 너무 쉽게 만족한다는 것입니다. 그래서 실제 트레이닝시 중요한 것은 구분하기 어려운 샘플을 고르는 것입니다. 즉, A-P 와 A-N의 distance 의 차이가 크지 않은 두 이미지를 우선적으로 사용하는 것이 좋습니다. 이 방법은 Triplet loss 를 제시한 논문에 설명되어 있습니다.

https://omoindrot.github.io/triplet-loss

트레이닝 데이터에서 Triple loss 로 하나의 CNN 을 구현한 후 학습한 후, 테스트 데이터에서는 예를 들어, 이미지의 representation 을 얻은 후, DB 에 있는 representation 과의 distance가 k 미만일 때, 같은 사람이라고 verification 할 수 있습니다.

Siamese Network + Binary loss

아래와 같이 문제를 Binary classification 으로 formulation 해서 face recognition 을 구현할 수도 있습니다. 실제로 많이 사용하며, 성능도 괜찮은 방법입니다.

https://medium.com/predict/face-recognition-from-scratch-using-siamese-networks-and-tensorflow-df03e32f8cd0

이 방법에서 Siamese Network 는 두 이미지를 input 으로 하고, 같은 사람을 1, 다른 사람을 0 로 encoding 된 label 을 통해 training 됩니다. triplet loss 를 사용한 방법에서는 max(l2 distance 의 차이+alpha, 0) 을 줄이는 방향으로 training 이 되었지만, binary classification 을 활용한 방법의 경우 구조가 약간다릅니다.

Siamese network와 binary classification 을 결합한 방법에서 CNN 이후 아키텍쳐는 다음과 같습니다.

1. 두 이미지에 대해 CNN 을 통과시켜 나온 두 representation 의 l1 vector 를 구합니다 (l1 vector는 CNN 으로 변환된 벡터의 absolute distance 를 원소로 갖는 vector 입니다).

2. l1 vector 를 hidden layer 에 통과시킨후 output layer 에서 sigmoid 변환을 합니다.

3. Binary cross entropy 를 loss function 으로 모델을 학습합니다.

4. 모델은 0-1 사이의 값을 갖는 output 내보냅니다. 이 값은 크면 클 수록 두 이미지가 비슷하다라는 것이므로 "similarity" 라고 할 수 있습니다.

5. 이 과정을 거치면 X1, X2 에 대한 CNN 의 output representation f(X1), f(X2) 는 같은 사람에 대해서 distance가 작게, 다른 사람에 대해서는 distance 가 크게 나오게 됩니다.

참고

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

Scikit-learn Gradient Boosting 모델 예측값이 매번 달라지는 문제와 해결 (0)	2020.01.30
구글 번역기의 놀라움 (0)	2020.01.27
AI 분야의 Top conference 리스트 (1)	2019.11.16
딥러닝 분야별 State-of-the-art (SOTA) 브라우저 (0)	2019.11.16
Softmax 에 Temperature Scaling 를 적용할 때 영향 (0)	2019.11.15

Data science/Statistics

층화 무작위배정을 실제로 하는 방법

2019. 12. 16. 17:08

층화 무작위배정을 실제로 하는 방법

본 포스팅에서는 임상시험에서 층화 무작위배정 을 실제로 어떻게 하는지에 대해 알아보겠습니다.층화 무작위배정 은 공변량에 대해 층화하여 무작위 배정을 하는 방법입니다. 층화 무작위배정 을 하는 이유는 1) 해당 공변량 대해 Randomization 되어있도록 해서 bias 를 줄이고자 하는 것입니다. 이는 treatment/control group 간에 공변량의 분포가 다른 경우, bias 가 생기기 때문입니다. 하지만 공변량에 대해 treatment/control group 이 randomization 되어있다면, 해당 이론적으로는 공변량에 대해서는 분포가 다를 수 없어 이로 인한 bias 가 생기지 않게 됩니다. 2) 또한 공변량을 보정하면 공변량의 effect 를 제외하여 treatment effect size 의 참값을 더욱 잘 추정할 수 있습니다. 이를 통해 검정력을 증가시킬 수 있습니다.

다음과 같은 상황을 예로 들어 봅시다.

1. 총 4개의 기관이 임상 시험에 참여

2. 기관당 임상시험 참여자는 20명

3. 나이를 공변량으로 잡고 Block size 는 6,6,6,2 로 설정한다.

구체적으로 기관 별로 아래와 같은

- 20~30세 : 6명

- 30~40세 : 6명

- 40~50세 : 6명

- 50~60세 : 2명

4. treatment/control group 의 배정 비율은 1:1 이다.

즉, Block size가 6이면 treatment 3명, control 3명을 무작위 배정한다.

전략

1. 기관별로 층화 -> 똑같은 코드를 4번 돌리는 것으로 구현

2. 나이를 사이즈 6,6,6,2 로 층화 무작위 배정 -> for 문으로 구현

3. 블록별 무작위 배정을 위해 블록 별로 0~1사이의 난수를 발생하고 (이중 for 문으로 구현 ), 이 값을 기준으로 sorting 해서 중위수를 기준으로 두 그룹으로 나눈 후, A, B 약을 배정한다.

blockrand <- function(R, N, blocksize){
  result <- data.frame(block=numeric(N), item=numeric(N), drug=character(N), rand=numeric(N), random_no=character(N), stringsAsFactors=FALSE)

  index <- 1
  for (i in c(1:ceiling(N/blocksize))){
    if (i == (ceiling(N/blocksize))){
      blocksize <- N - (i-1)*blocksize # 2
    }
    
    for (j in c(1:blocksize)){
      result[index, 'block'] <- i
      result[index, 'item'] <- j
      
      if (j <= blocksize/2){
        result[index, 'drug'] <- 'A'
      } 
      else {
        result[index, 'drug'] <- 'B'
      }
      
      result[index, 'rand'] <- runif(1)
      index = index + 1
    }
  }
  result <- result[order(result$block, result$rand), ]
  result$random_no <- c(paste0(R,'-R', as.character(c(1:(ceiling(N/blocksize)*blocksize)))))
     
  return (result)
}
inst1 <- blockrand('01', 20, 6)
inst2 <- blockrand('02', 20, 6)
inst3 <- blockrand('03', 20, 6)
inst4 <- blockrand('04', 20, 6)

이를 위하여 blockrand 라는 함수를 만듭니다. 이 함수는 기관명 R, 기관별 대상자 수 N, 블록 사이즈 blocksize 를 parameter 로 받아 결과 테이블을 dataframe 형식으로 생성하여 반환하는 함수입니다.

결과 예시

block item drug rand random_no

3 1 3 A 0.03323463 01-R1

5 1 5 B 0.23377875 01-R2

1 1 1 A 0.58872123 01-R3

4 1 4 B 0.64914300 01-R4

2 1 2 A 0.86294140 01-R5

6 1 6 B 0.86923215 01-R6

8 2 2 A 0.01529889 01-R7

9 2 3 A 0.11754757 01-R8

11 2 5 B 0.13073496 01-R9

10 2 4 B 0.46934007 01-R10

7 2 1 A 0.56171635 01-R11

12 2 6 B 0.61339224 01-R12

14 3 2 A 0.11352796 01-R13

13 3 1 A 0.62667742 01-R14

15 3 3 A 0.82257959 01-R15

18 3 6 B 0.85910418 01-R16

17 3 5 B 0.87995944 01-R17

16 3 4 B 0.92778095 01-R18

20 4 2 B 0.70824728 01-R19

19 4 1 A 0.76212643 01-R20

이러한 층화 무작위배정은 머신러닝에서 특정 변수의 분포를 train/valid/test set 에서 맞추어줘서 모델의 일반화 성능을 보다 정확히 평가하고 싶은 경우에 사용되기도 합니다.

저작자표시

'Data science > Statistics' 카테고리의 다른 글

시계열분석 - Auto correlation coefficients (0)	2022.01.24
시계열분석 - Week stationarity/Stochastic process/Autocovariance function (0)	2022.01.24
다중 비교 (Multiple comparison) 문제와 보정 방법 (0)	2019.12.15
변수 종류별 시각화 및 검정 방법 (0)	2019.11.03
통계적 검정의 종류와 신뢰구간과 가설검정의 관계 (0)	2019.10.26

Data science/Statistics

다중 비교 (Multiple comparison) 문제와 보정 방법

2019. 12. 15. 02:42

다중 비교 (Multiple comparison) 문제와 보정 방법

본 포스팅에서는 다중 비교가 무엇인지, 어떤 방법으로 보정할 수 있는지를 알아보겠습니다. 다중 분석이 문제가 된다는 점을 이해하기 위해 먼저 예를 설명하겠습니다.폐암과 연관성이 있는 요인을 찾기 위한 연구를 수행한다고 해봅시다. 예를 들어, 나이, 체질량 지수, 식습관, 음주습관, 운동량 등 100 가지의 요인에 대해 폐암과의 연관성을 유의 수준 0.05 하에서 비교하고자 합니다. 이를 위해 폐암 환자와 정상인을 수집했고, 연속형 변수에 대해서는. T-test, 범주형 변수는 카이제곱 검정을 수행하여 최종적으로, 운동량, BMI, 학력, 우유 섭취량, 경제력이 폐암과 연관성이 있다고 나왔다고 합시다. 이 때, 이 변수들이 폐암과의 연관성이 있다고 결론 내릴 수 있을까요? 물론 각각의 검정은 유의 수준 0.05 하에서 검정한 것이기 때문에, 연관성이 실제로 있을 가능성이 높은 것이 사실입니다. 하지만 100가지 요인에 대한 검정을 하나의 연구로 볼 때, 모든 변수가 연관성이 실제로 없더라도 평균적으로 5개의 잘못된 결과를 얻게 됩니다. 만약에 이러한 잘못된 결론이 학계에 보고되면 잘못된 과학적 결론을 내릴 수 있습니다. 따라서, 개별 검정 뿐 아니라 한 연구의 에러를 줄이는 방법이 필요합니다. 즉, 한 연구에서 나올 수 있는 잘못된 결과를 줄이자 라는 것이 다중검정 보정의 핵심입니다.

여기서 family-wise type 1 error 의 개념이 등장합니다. Family-wise type 1 error rate (FWER) 란 한 연구에서 적어도 한 개의 잘못된 결론 (false positive)이 나올 수 있는 확률을 의미합니다. 만약 이것이 0.05 라면 한 연구에서 적어도 1개의 잘못된 결론이 나올 확률이 0.05 라는 것입니다. FWER 를 통제하는 방법으로 잘 알려진 것이 본페로니 보정 방법입니다. 본페로니 보정은 test 의 수가 n 이고, FWER 를 0.05 로 통제할 때, 개별 테스트의 유의수준을 alpha/m 으로 설정시킵니다. 모든 검정이 실제로 연관성이 없는 경우 (null 인 경우), 아래 식이 m 이 클 수록 대략적으로 만족됩니다.

$$ FWER= 1-(1-\alpha/m)^m = \alpha $$

<본페로니 방법을 통한 FWER 통제>

하지만 본페로니 방법의 문제는 너무 보수적 (strict/conservative) 이라는 것입니다. 보수적이라는 뜻은 귀무가설을 웬만해선 기각하지 않는다는 것으로, false positive 는 상당히 줄일 수 있지만, false negative 는 많아지게 됩니다. 예를 들어 test 의 개수가 1000개인데, 연관성이 없는 것이 900개, 연관성이 있는 것이 100개 일 때, 900개 중에 1개라도 잘못나올 확률은 1-(1-0.05/1000)^900 < 0.05 입니다. 물론 false positive 가 적어져서 좋긴 하지만, false negative 가 많아진다는 문제가 생깁니다. 따라서, 다중 비교 검정의 핵심은 어떻게 false positive 를 줄이면서, false negative 도 줄일 수 있는가? 입니다.

다중 검정 보정 방법

그러면 어떻게 false positive, false-negative 의 타협을 보는가 (FWER 은 본페로니 수준이면서, false negative 를 줄일 수 있는가)에 문제에 있어서 도입되는 한 가지 방법이 바로 multi-step 보정 방법입니다. Multi-step 보정법은 step-down 방법, step-up 방법으로 나뉘는데, 예를 들어, step-down 방법은 Holm's 방법, step-up 방법은 Hochberg 방법이 있습니다. 이러한 multi-step 보정 방법은 fwe 는 그대로 두면서 false negative 는 줄이는 방법으로 알려져 있습니다. 이를 수리적으로 보이는 것은 다소 어렵지만 simulation 을 통해서 bonferonni 방법보다 효율적이라는 것이 많이 알려져 있습니다. Multi-step 보정 방법은 모든 검정에서 나온 p-value 를 정렬 (sorting) 한 후, 각 검정마다 각기 다른 p-value cutoff 를 적용시키는 방법입니다. Step-down 방법은 p-value 가 가장 작은 검정부터, step-up 방법은 p-value 가 큰 검정부터 귀무가설 기각 여부를 보게됩니다.

FWER 이 아닌 False Discovery Rate (FDR) 을 줄이는 방법이 최근 많이 사용되고 있습니다. FDR 을 다중검정에서 사용할 때의 의미는 false postive, false negative 를 줄이는데 집중할 것이 아니라, 내가 귀무가설을 기각한 검정 중 틀린 것 (false positive/true positive+false positive = discoveries) 의 비율을 줄이자는 것입니다. 최근 FDR 통제에 많이 쓰이는 방법 중 하나가 Benjamin-Hochberg 방법입니다. 이 방법은 FDR 를 잘 통제한다고 알려진 방법입니다.

$$ FDR = \frac{false_{positive}}{true_{positive}+false_{positive}} $$

Holm's 방법, Hochberg 방법, Benjamin-Hochberg 방법 모두 간단하며, 검색해보면 쉽게 알 수 있기 때문에 본 포스팅에서는 따로 설명하지 않고, 아래 시각적으로 설명한 그림을 첨부하였습니다. Benjamin-Hochberg 방법의 경우 이전 제 포스팅에서 설명했습니다.

<Holm's, Hochberg, Benjamin-Hochberg Procedure 의 비교>

다중 검정 보정이 필요한 상황

1. 수많은 요인들에 대한 연관성 분석을 수행할 때

이 예로는 유전체학 분야를 들 수 있습니다. genomics 분야에서 microarray 와 같은 high-throughput 기술의 발달됨에 따라, 수많은 유전자 변이 마커, 유전자 발현 (gene expression) 과 표현형의 연관성을 보는 연구가 수행되었습니다. 이러한 Genomics 분야의 발전은 다중 검정 보정이 생겨난 이유이기도 합니다. 일반적으로 한 사람에서 300만개의 단일염기다형성 (single-nucleotide polymorphism) 이 있습니다. 이러한 마커들과 질병의 연관성을 보는 연구에서 multiple comparison 문제가 생길 수 밖에 없고, 수 많은 false positive 가 생기게 됩니다. 이 분야의 default 라고 얘기할 수 있는 보정 방법은 FDR 을 통제하는 Benjamin-Hochberg 방법입니다.

2. 임상 시험

임상 시험의 수많은 상황에서 다중 비교 문제가 생기게 됩니다. 신약 개발을 예를 든다면, 아래와 같은 상황이 발생할 수 있습니다.

1) 비교 그룹 수가 3개 이상인 경우 :ANOVA 검정 후 유의해서, 사후검정을 할 때, 다중 검정이 발생하게 됩니다. 예를 들어, 대조약, 저투여군, 고투여군 3그룹을 비교할 때 생길 수 있습니다. 이러한 임상시험 세팅에서는 다중성을 반드시 보정해주어야합니다.

2) 하위군 분석 : 임상 시험 대상자를 어떤 공변량을 기준으로 하위군으로 나누어 신약의 효과를 평가할 때 발생합니다. 대표적으로 다중 검정이 발생하는 사례로, 하위군 분석 결과를 확증적으로 인정받기 위해서는 임상시험계획서에 이를 명기하고 다중검정 보정법을 제시해야합니다.

3) 중간 분석 : 임상 시험에서 시험 기간이 종료되기 전에 중간에 데이터를 오픈해서 테스트를 하는 경우도 있습니다. 이 경우도 대표적으로 다중 검정이 발생하는 사례로, 각 절차에서 O-brien fleming 방법을 사용한 다중검정 보정법이 종종 사용됩니다.

저작자표시

'Data science > Statistics' 카테고리의 다른 글

시계열분석 - Week stationarity/Stochastic process/Autocovariance function (0)	2022.01.24
층화 무작위배정을 실제로 하는 방법 (1)	2019.12.16
변수 종류별 시각화 및 검정 방법 (0)	2019.11.03
통계적 검정의 종류와 신뢰구간과 가설검정의 관계 (0)	2019.10.26
모분산의 추정과 검정 (2)	2019.10.25

Data science/Machine Learning

AI 분야의 Top conference 리스트

2019. 11. 16. 03:51

잘 정리된 사이트가 있어 공유합니다. H-index 기준 1위 CVPR, 2위 NIPS, 3위 EECV, 4위 ICML, 5위는 얼마전 서울에서 열렸던 ICCV 네요.

무엇을 기준으로 한지는 잘 모르겠으나, 아래와 같이 Conference 와 Journal 의 Rank 를 분류한 자료도 있습니다. SIGIR, WWW, ACL, KDD, AAAI, IJCAI, ICML, NIPS, ICLR가 아래 기준 Rank 1 에 속한 conference 들입니다.

Conference Ranking

Read all the relevant papers from major top proceedings/journals. Read, read and read!

Find new ideas, Do solid research, Publish top papers, Get professional internships/jobs!

Rank 1 (CCF-A): SIGIR, WWW, ACL, KDD, AAAI, IJCAI, ICML, NIPS, ICLR.

Rank 2 (CCF-B): CIKM, WSDM, EMNLP.

Rank 3 (CCF-C): ECIR, NAACL.

SIGIR-sponsored conferences: SIGIR, CIKM, WSDM, ICTIR, CHIIR.

A better computer science department ranking list based on top conference publications: http://csrankings.org.

Best Paper Awards in Top Computer Science Conferences

Best Papers vs. Top Cited Papers in Computer Science (since 1996)

Google CS Conference&Journal Ranking (IR&Search&Web&DB)

Google CS Conference&Journal Ranking (Core IR)

Google CS Conference&Journal Ranking (NLP)

Google CS Conference&Journal Ranking (DM)

Google CS Conference&Journal Ranking (ML&AI)

Most Cited Papers in Top Conferences in Recent 5 Years:

IR/Web: SIGIR, WWW, CIKM, WSDM

NLP: ACL, EMNLP, NAACL

ML/DM: ICML, NIPS, KDD, AAAI, IJCAI, ICLR

Most Cited Computer Scientists by H Index

Citations Statistics of Top Computer Science Researchers by Prof. Jimmy Lin

Number of submissions and acceptance rate of NLP conferences

Journal Ranking

Rank 1

ACM Transactions on Information System (TOIS)
Artificial Intelligence (AIJ)
IEEE Transactions on Knowledge and Data Engineering (TKDE)
Computational Linguistics (CL)
Journal of Machine Learning Research (JMLR)
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Rank 2

ACM Transactions on Intelligent Systems and Technology(TIST)
Information Processing & Management (IPM)
Information Retrieval (IRJ)
Journal of the American Society for Information Science and Technology (JASIST)

참고

https://sites.google.com/site/lyangwww/resources?tmpl=%2Fsystem%2Fapp%2Ftemplates%2Fprint%2F&showPrintDialog=1

http://www.guide2research.com/topconf/machine-learning

https://jackietseng.github.io/conference_call_for_paper/conferences.html

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

구글 번역기의 놀라움 (0)	2020.01.27
One shot learning, Siamese Network 이해 (1)	2019.12.31
딥러닝 분야별 State-of-the-art (SOTA) 브라우저 (0)	2019.11.16
Softmax 에 Temperature Scaling 를 적용할 때 영향 (0)	2019.11.15
[논문리뷰] 현대 딥러닝의 Calibration 에 대하여 (3)	2019.11.14

Data science/Machine Learning

딥러닝 분야별 State-of-the-art (SOTA) 브라우저

2019. 11. 16. 03:36

딥러닝 분야별 State-of-the-art (SOTA) 브라우저

딥러닝 분야 (Image Classification, Semantic Segmentation, Object Detection, Medical 등) 별 SOTA 알고리즘을 확인할 수 있는 사이트를 찾게 되어 공유합니다. Data set 별로 가장 성능이 좋은 방법들을 나열해놓고 있습니다. 최신 기술의 업데이트를 한 곳에서 확인할 수 있어 매우 유용한 사이트인것 같습니다. Semantic Segmentation 분야의 경우, DeepLab 이 최신 기술이라고 알고 있었는데 이외에도 들어보지 못한 ACNet, HRNet 등의 방법들도 좋은 성능을 내고 있네요.

https://paperswithcode.com/sota?fbclid=IwAR16wLSr-BAcl-eZAwMVIHdsmpgBF6dN4ETR5kRGg02f_5xBBOlN6uMapo4

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

One shot learning, Siamese Network 이해 (1)	2019.12.31
AI 분야의 Top conference 리스트 (1)	2019.11.16
Softmax 에 Temperature Scaling 를 적용할 때 영향 (0)	2019.11.15
[논문리뷰] 현대 딥러닝의 Calibration 에 대하여 (3)	2019.11.14
예측값을 변수로 활용하는 앙상블 테크닉: Blending (0)	2019.11.01

Data science/Machine Learning

Softmax 에 Temperature Scaling 를 적용할 때 영향

2019. 11. 15. 16:43

일반 Softmax 함수

import tensorflow as tf
import numpy as np

z = [1,2,3,4,5,6]

def softmax(a) : 
    c = np.max(a) 
    exp_a = np.exp(a-c) 
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

q = softmax(z)

Softmax with Temperature Parameter

def softmax_with_temperature(z, T) : 
    z = np.array(z)
    z = z / T 
    max_z = np.max(z) 
    exp_z = np.exp(z-max_z) 
    sum_exp_z = np.sum(exp_z)
    y = exp_z / sum_exp_z
    return y

calibrated_q2 = softmax_with_temperature(z, 2)
calibrated_q10 = softmax_with_temperature(z, 10)

Temperature 를 크게 줄 수록 각 확률 값들의 차이가 줄어듬을 확인할 수 있음

하지만, 순서는 변하지 않기 때문에 정확도에 영향을 주지 않음

fig = sns.barplot(x=np.array([0,1,2,3,4,5]), y=q)
fig.set(ylim=(0,1))
plt.show()

fig2 = sns.barplot(x=np.array([0,1,2,3,4,5]), y=calibrated_q2)
fig2.set(ylim=(0,1))
plt.show()

fig3 = sns.barplot(x=np.array([0,1,2,3,4,5]), y=calibrated_q10)
fig3.set(ylim=(0,1))
plt.show()

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

AI 분야의 Top conference 리스트 (1)	2019.11.16
딥러닝 분야별 State-of-the-art (SOTA) 브라우저 (0)	2019.11.16
[논문리뷰] 현대 딥러닝의 Calibration 에 대하여 (3)	2019.11.14
예측값을 변수로 활용하는 앙상블 테크닉: Blending (0)	2019.11.01
Label smoothing: 딥러닝 모델의 일반화와 Calibration 향상을 위한 테크닉 (1)	2019.09.16

Data science/Machine Learning

[논문리뷰] 현대 딥러닝의 Calibration 에 대하여

2019. 11. 14. 15:58

[논문리뷰] 현대 딥러닝의 Calibration 에 대하여

현대 Neural network 의 calibration 에 관하여라는 논문을 리뷰하여 포스팅하겠습니다. 딥러닝의 성능 (performance) 이라 하면 일반적인 용어 '정확도' 를 뜻하는 경우가 많습니다. 그 정확도란 1) 예측 한 것중에 얼마나 맞았는가? 2) 데이터가 얼마나 잘 분류가 되었는가? 두 관점이 있으며, accuracy, precision (positive predictied value), recall (sensitivity), f1-score (precision 과 recall 의 조화평균) 등 대표적이고 많이 사용되는 measure 라고 할 수 있습니다. 하지만 calibration 도 정확도 못지 않게 중요한 성능이라고 할 수 있습니다. 본 논문에서는 '현대 뉴럴넷' 이 과거의 뉴럴넷보다 정확도는 향상되었지만, calibration 이 좋지 않다 (poorly calibrated) 라는 점을 문제로 삼으며, post-processing calibration method 인 temperature scaling 을 제시하고 있습니다.

Calibration 이란?

Calibration 이란 모형의 출력값이 실제 confidence (또는 이논문에서 calibrated confidence 로 표현) 를 반영하도록 만드는 것입니다. 예를 들어, X 의 Y1 에 대한 모형의 출력이 0.8이 나왔을 때, 80 % 확률로 Y1 일 것라는 의미를 갖도록 만드는 것입니다. 일반적으로 현대 딥러닝은 overconfident 합니다. 아래 그림은 1998 년 제시된 LeNet 과 2016년 제시된 ResNet (110 layer) 의 calibration 을 비교한 그림입니다. LeNet 의 경우 모형의 출력이 0~1 사이에 균일하게 분포되어있는 것을 볼 수 있지만, ResNet 의 경우 1 근처에 집중되어 있다는 것을 볼 수 있습니다. 그 결과로 아래 그림을 보면, ResNet 의 경우, confidence 와 accuracy가 많이 어긋난다는 것을 볼 수 있습니다. 모형의 출력이 실제 confidence 를 반영한다면 (calibrated confidence), confidence 와 accuracy 가 일치해야합니다.

왜 Calibration 이 중요한가?

모형의 예측값이, 실제 확률을 반영하는 것 (Calibration) 은 중요합니다. 딥러닝이 실제 세계에 응용될 때, 의사결정 프로세스의 하나의 구성요소가 되는 경우가 많습니다. 예를 들어, 의학적 진단 (computer-aided diagnosis)을 예로 들어보면, 딥러닝을 전적으로 신뢰해서 모든 판단을 딥러닝에 맡기는 식으로 의사결정이 이루어지는 경우는 적습니다. 딥러닝 모델의 confidence 가 낮은 경우에만 사람이 보는 방식으로 사람의 노동력을 줄이거나, false negative 가 치명적인 암 진단과 경우에는, cancer negative 로 예측한 것들 중, confidence 가 낮은 것만 사람이 재확인 하는 방식으로 하는 것도 가능합니다. 결국 이러한 의사 결정이 가능하기 위해서는 모형의 confidence 를 보는 것이 필요하고 이 confidence가 calibrated confidence 여야지 그 값에 신뢰성이 있다고 할 수 있습니다.

Calibration Measures

모형의 Calibration 이 잘되었는지를 어떻게 확인할 수 있을까요? 논문에 나와있는 3가지 measure 를 정리해보았습니다.

1) Reliability Diagram

Reliability diagram 은 expected accuracy 와 observed accuracy 를 각각 x, y 축으로 하여 그린 그래프를 말합니다. 이 때, expected accuracy (confidence) 를 기준으로 bin 을 쪼개서 (ex. decile) 각 bin 에서 observed accuracy 를 아래와 같이 구함으로써 그래프를 그릴 수 있습니다.

파이썬 코드로 Reliability diagram 그리는 법을 참고 바랍니다.

2) Expected Calibration Error (ECE)

ECE 는 confidence와 실제 accuracy 의 차이의 기댓값으로 연속형 변수에서 이를 실제로 구할 수 있는 방법은 없습니다. 따라서 "binning" 을 통해 위와 같이 approximation 됩니다. ECE는 M 개의 bin 에 대하여 각 bin 마다의 expected accuracy 와 confidence 의 차이를 가중 평균 (weighted mean) 한 것입니다. 이 때 가중치는 위 식에 나와있듯, bin 의 sample size / 전체 sample size 입니다.

3) Negative log likelihood

Negative log likelihood 는 통계 모형의 quality 를 평가하는데 표준적으로 많이 쓰이는 measure 입니다. 딥러닝/머신러닝 분야에서는 cross-entropy loss 라고도 불립니다 (분류 문제에 있어서). 이러한 log likelihood 와 cross-entropy 와의 관련성은 제 블로그 포스팅에서도 다룬적이 있으니 참고 바랍니다. Logistic regression 은 이 negative log likelihood 를 최소화 하는 계수를 찾게되며, 딥러닝도 cross-entropy 를 손실함으로 놓는다면, 마찬가지입니다. NLL 은 calibration 을 의미하는 measure 로 보기는 어려우나, calibration 도 어느정도 반영하고 있다고 볼 수 있습니다.

현대 딥러닝 기법과 Calibration 의 관계

본 논문에서는 Model capacity 와 Regularization 방법이 miscalibration 과 관계가 있다는 실험 결과를 제시하고 있습니다. 하지만 이 부분에 대해 인과성을 단정할 수는 없습니다.

1) Model capacity

최근 등장하는 딥러닝 모형들은 매우 많은 layer 를 갖고 있습니다. 적게는 수백개에서부터 수천개의 layer 가 있으며, layer 마다 수백개의 convolution filter 가 사용됩니다. 최근 연구에 따르면, 많은 layer 를 가질 수록 traninig set 의 특징을 더욱 잘 학습하고, generalization 도 더 좋다는 것을 보여주었습니다.

위 figure 에서 가장 왼쪽 그림은 ResNet 에 대하여 64개의 filter 로 고정 후, depth 를 올리면서 error와 ece를 관찰한 그림입니다. depth 가 증가할 수록 error 는 줄어들지만 ECE는 증가하는 것을 확인할 수 있습니다. 왼쪽에서 두 번째 그림은 depth 를 고정시킨 후, filter 의 수를 증가시키면서 error와 ece 를 관찰한 것인데, 마찬가지로 error는 줄어들지만 ece 는 증가합니다. 후반부에는 유지되지만 초반부에 매우 빠르게 ece 가 증가하는 것을 확인할 수 있습니다. 즉, model capacity 가 클 수록 ece는 증가합니다. 이 이유는 모델이 training set 에 대한 loss 를 최소화하는 방향으로 학습되기 때문입니다. 그렇기 때문에 training set 을 완벽하게 분류할 수 있기 되더라도 loss 를 줄이기 위하여 confidence 를 높여 1에 가까운 값을 예측하기 때문입니다. 따라서 test set 에 대해 예측할 때도 마찬가지의 현상을 보이게 됩니다.

2) Batch Normalization (BN)

Batch normalization 방법은 distribution shifts in activations 을 최소화해서 딥러닝의 optimization 및 regularization 을 향상시키는 방법입니다. batch normalization 의 도입은 매우 깊은 모델 (resnet, densenet 과 같은) 을 학습시킬 수 있는 한 가지 breakthrough 였습니다. 위 figure 의 3번째 그림을 보면 BN 이 calibration 에 미치는 영향을 볼 수 있습니다. 결론은 BN 의 도입은 calibration 을 낮추며, 원인은 알 수 없다는 것입니다.

3) Weight decay

BN 의 도입 이후 최근 weight decay 가 많이 쓰이지 않는 regularization 방법입니다. BN 논문에서 L2 regularization 를 쓰지 않는게 일반화에 도움이 된다는 내용이 보고되기도 했습니다. 따라서 최근에는 weight decay 를 과거와 비교하여 매우 작게 주는 것이 일반적입니다. 하지만 안타깝게도 이것은 calibration 에 좋지 않은 영향을 준다고 합니다. 위 figure의 가장 오른쪽 그림을 보면 weight decay 를 크게 줄 수록 오히려 ece 가 좋아지며, weight decay 가 적을 수록 ece 가 증가합니다. 직관적으로도, weight decay 가 적으면 training set 에 대해 loss 를 최소화 시키는 weight 가 얻어지는 것이기 때문에 test set 에 대해 overconfident 한 모델이 얻어질 것이라는 것을 짐작할 수 있습니다.

Calibration 방법

Post-processing calibration 은 모델의 예측 확률로부터 Calibrated probability 를 구하는 과정입니다. 이 방법은 validation set 이 필수적으로 필요합니다 (물론 이 validation set 은 training 할 때 쓰인 validation set 과 같은 set 이어야 합니다.).

Post-processing calibration의 목적은 모델의 예측값 p 로부터 calibrated probability q 를 구하는 것입니다. 간단하게 positive class, negative class 로 나뉘어진 binary prediction 을 예로 들어봅시다. 첫 번째로 소개할 방법은 Histogram binning 방법입니다.

1) Histogram Binning : Zadrozny 는 2001 년 ICML 에서 decision trees and naive bayesian classifier 의 예측값을 calibration 하는 방법을 제시했습니다. Histogram binning 은 매우 간단하고 직관적인 calibration 방법으로 non-parametric calibration 방법입니다. 절차는 아래와 같습니다.

1) 예측값을 M 개의 bin 으로 쪼갭니다. bin 을 쪼개는 방법은; 1. 같은 interval 로 쪼개기 2. sample 수로 쪼개기가 있습니다.

2) 이후에 Bin 마다 Score 를 구합니다.

3) Score 는 bin-wise squared loss 를 최소화하는 방법으로 선택됩니다.

* Bin-wise squared loss

여기서 1은 indicator function 입니다. 이를 최소화하는 theta1~theta_m 을 구해서 이를 bin 마다의 score로 쓰는 것입니다. 위 식을 최소화하면 결국 스코어는 해당 bin 에서의 positive-class 의 비율이 됩니다. 즉, histogram binning 방법은 예측값을 binning 한 후, 각 bin 에서의 positive-class 의 비율로 확률을 재할당하는 것으로 이해할 수 있습니다.

2) Platt scaling: Platt scaling 은 1999년 Platt 이 제시한 방법으로 SVM 의 출력을 '확률화' 하기 위한 방법으로 제시되었습니다. Platt scaling 은 histogram binning 과는 다르게 parametric 방법입니다. 최초로 제시된 이 방법에서는 모형의 출력을 logistic regression 의 input 으로 넣습니다. 뉴럴넷의 경우, 최종 모델의 출력값이 sigmoid 되기 전의 값 z 를 아래와 같이 변환합니다.

$$ q_i = \sigma(az_i + b) $$

이 때, a, b 는 validation set 에 대해서 NLL (=binary cross entropy) 을 최소화 시키는 방향으로 학습이 됩니다. 당연하지만 이 과정에서 학습된 뉴럴넷의 weight는 영향을 받지 않습니다.

3) Temperature scaling: Temperature scaling 은 Platt scaling 에 기초한 방법입니다. K 개의 label 이 있는 다중 분류 문제에서 Temperature scaling 방법에서는 단일 scalar parameter T 를 이용해 logit vector z 를 아래와 같이 변환합니다.

본 논문의 저자는 T 를 temperature 라고 부릅니다. T 는 soft max function 을 "soften" 시키는 일을 합니다. T 가 커질 수록 최종 calibrated probability q 는 1/K 로 수렴합니다 (이것은 uncertainty가 극대화 된다는 의미입니다). 식을 보면 T 가 1일 때가 원래 softmax를 이용하여 confidence 를 구하는 방법이라는 것을 알 수 있습니다. T는 validation set 에 대해 NLL 을 최소화 하는 식으로 optimization 하는 방법입니다. T 의 장점은 argmax 를 바꾸지는 않는다는 것입니다. 즉, T 는 모델의 정확도에는 영향을 주지 않고, Calibration 에만 영향을 줍니다.

참고

https://arxiv.org/pdf/1706.04599.pdf

https://machinelearningmastery.com/calibrated-classification-model-in-scikit-learn/

저작자표시

'Data science > Machine Learning' 카테고리의 다른 글

딥러닝 분야별 State-of-the-art (SOTA) 브라우저 (0)	2019.11.16
Softmax 에 Temperature Scaling 를 적용할 때 영향 (0)	2019.11.15
예측값을 변수로 활용하는 앙상블 테크닉: Blending (0)	2019.11.01
Label smoothing: 딥러닝 모델의 일반화와 Calibration 향상을 위한 테크닉 (1)	2019.09.16
Cross-entropy 의 이해: 정보이론과의 관계 (14)	2019.07.14

Data science/Statistics

변수 종류별 시각화 및 검정 방법

2019. 11. 3. 16:41

변수 종류별 시각화 및 검정 방법

얼마전, 변수 종류별로 사용할 수 있는 시각화 및 검정 방법을 간단하게 요약한 표를 발견해 공유합니다. 출처는 이곳 입니다. 표를 그린 기본 아이디어를 보면, 종속변수를 Binary, Nominal, Ordinal, Interval, Normal, Censored Interval 으로 나누었습니다. 독립변수의 경우, Binary Categorical (Paired/Unpaired), Categorical (Paired/Unpared), Normal, Multivariate 으로 나누었습니다. 이 때, ordinal 의 경우, 연속형 범주로 또는 범주형 변수 상황에 따라 둘 다 가능합니다.

그래프의 경우 요약하면, Barplot, Boxplot, Scatter plot 이 기본입니다. 카테고리x카테고리 = Barplot, 카테고리x연속형 = Box plot, 연속형x연속형 = Scatter plot 으로 기본적으로 그리면 됩니다. 여기서 Box plot 의 경우 전통적인 통계에서 많이 쓰이는 그래프이지만, Histogram with different colors or side by side 또는 violin plot 도 선호됩니다.

대부분의 기초 통계에서 배우는 검정은 대부분 이 표안에 속해있습니다. 검정에서 하고자 하는 것은 변수 X와 변수 Y 가 연관성이 있는가? 입니다. 검정도 마찬가지로, X와 Y의 종류에 따라 다양하게 존재합니다. 아래표의 대부분의 검정은 기초 통계에서 배우는 내용입니다. Paired data 에 적용하는 맥니마 검정은 설문지/심리학 연구 등에 자주 사용되는 통계적 검정 방법인데 이전 제 포스팅에서 다루었습니다. 코크란의 Q test는 맥니마 검정의 확장으로 종속변수가 두 개 이상일 때 사용하는 통계적 검정 방법입니다.

출처

https://www.r-bloggers.com/overview-of-statistical-tests/

저작자표시

'Data science > Statistics' 카테고리의 다른 글

층화 무작위배정을 실제로 하는 방법 (1)	2019.12.16
다중 비교 (Multiple comparison) 문제와 보정 방법 (0)	2019.12.15
통계적 검정의 종류와 신뢰구간과 가설검정의 관계 (0)	2019.10.26
모분산의 추정과 검정 (2)	2019.10.25
두 모집단의 모비율의 차이에 대한 검정 (2)	2019.10.24

Deepplay interested in data analytics and ML modeling

admin write link

notice

블로그 운영 정보

my link

statistics

total :
today :
yesterday :

Data science (105)

Data science/Machine Learning

Scikit-learn Gradient Boosting 모델 예측값이 매번 달라지는 문제와 해결

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Machine Learning

구글 번역기의 놀라움

구글 번역기는 하나의 긴 문장을 두 개의 문장으로 쪼개주기도 한다.

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Machine Learning

One shot learning, Siamese Network 이해

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Statistics

층화 무작위배정을 실제로 하는 방법

'Data science > Statistics' 카테고리의 다른 글

Data science/Statistics

다중 비교 (Multiple comparison) 문제와 보정 방법

'Data science > Statistics' 카테고리의 다른 글

Data science/Machine Learning

AI 분야의 Top conference 리스트

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Machine Learning

딥러닝 분야별 State-of-the-art (SOTA) 브라우저

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Machine Learning

Softmax 에 Temperature Scaling 를 적용할 때 영향

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Machine Learning

[논문리뷰] 현대 딥러닝의 Calibration 에 대하여

'Data science > Machine Learning' 카테고리의 다른 글

Data science/Statistics

변수 종류별 시각화 및 검정 방법

'Data science > Statistics' 카테고리의 다른 글

notice

category

recent posts

recent comments

tag cloud

my link

statistics

티스토리툴바