AI/이론 정리(21)
-
[AI] 머신러닝과 딥러닝에 대한 나름의 이해
딥러닝은 머신러닝의 한 부분이다. 머신러닝 알고리즘은 데이터가 적을 때 사용하면 좋고 딥러닝은 데이터가 많을 때 사용하면 좋다. 머신러닝 알고리즘은 입력으로 인간이 생각하는 피쳐들로 바꾸어서 넣어주어야 한다. 그렇기 때문에 전문가가 필요하다 딥러닝은 그럴 필요가 없고 데이터만 넣어주면 된다. 그 과정에서 더 깊은 레이어는 더 복잡한 표현을 처리하게 된다. 그리고 하나의 레이어에서는 레이어에서 표현하는 feature들을 동시에 학습하게 된다.
2023.08.25 -
[AI] feature extraction과 feature selection에 대한 나름의 이해
feature selection은 원래 있던 feature들 중 필요없는 것들을 제거하는 것이고 feature extraction은 원래 있던 feature들을 활용하여 새로운 feature들의 집합을 만드는 것이다. feature extraction에는 대표적으로 PCA가 있는데 주요한 성분 먼저 추출을 통해 압축을 하는 것으로 볼 수 있다. 입력 데이터의 공분산 행렬을 통해 고유벡터를 구하고 입력데이터와 고유벡터를 선형변환하여 차원을 축소하는 방법이다. Reference https://huidea.tistory.com/126 [Machine learning] 차원축소, PCA, SVD, LSA, LDA, MF 간단정리 (day1 / 201009) Q. 차원의 저주에 대해 설명해주세요. dimensio..
2023.08.23 -
[AI] AUROC에 대한 이해
일단 임계점이라는 것은 지금 선택된 것에 대해 적용된다. 만약 모델이 참이라고 추론했다면 임계점은 여기에 적용된다. 두 번째로 임계점은 true, false일 때 반대로 적용된다. 참일 때 임계점이 1.0이면 거짓일 때 임계점은 0.0이다. 왜냐하면 이렇게 되지 않으면 다음 그래프를 설명할 수 없기 때문이다. 즉, TPR과 NPR이 모두 1이려면 FalseNegative와 TrueNegative 모두 0이여야 하고 이는 임계점이 거짓일 때 1.0으로 적용된 값일 것이다. 그리고 TPR과 NPR이 모두 0인 지점은 참일 때 임계점이 1.0인 경우일 것이다. 따라서 애초에 추론할 때 모두를 1.0으로 확신을 갖고 추론을 한다면 그래프는 1.0으로 일직선이 될 것이다. 개인적으로 이해하기로 f1과 auroc의..
2023.08.22 -
[AI] Accuracy의 문제점
Classification의 지표로 쓰일 수 있는 accuracy는 실제 정답 / 전체 예측이다. 이것의 문제는 정답이 A인게 80개 있고 정답이 B인게 20개 있는 데이터 불균형 상황에서 모든 예측을 A라고만 해도 정확도를 80% 달성할 수 있다. 근데 B는 하나도 못 맞추는 것이다.
2023.08.22 -
[AI] precision과 recall에 대한 고찰
Precision = (True Positive ) / (True Positive + False Positive)이다. 이걸 해석하면 내가 참이라고 예측해서 맞은 것의 비율이다. 예를 들어, 100개를 참이라고 예측했는데 100개 모두 참이였다면 정밀도 100%인 것이다. Recall = (True Positive) / (True Positive + False Negative)이다. 이걸 해석하면 실제 참인 것 중 맞춘 것의 비율이다. 예를 들어, 100개가 참인데 60개 정도만 참이라고 했다면 재현율 60%인 것이다. 그럼 Precision과 Recall을 서로 연관해서 생각해보자. 총 데이터가 200개가 있다고 하자. 내가 100개를 참이라고 예측했는데 그 중 80개가 실제 참이었다. 그러니까 정밀도..
2023.08.22 -
[이론 정리] 데이터 불균형
데이터의 불균형 데이터의 불균형으로 인해 과적합이 생길 수도 있다. 데이터의 불균형을 해결할 수 있는 방법 1. Under Sampling Under Sampling은 데이터의 균형을 맞출 때 더 많은 개수의 데이터를 줄이는 방식이다. 2. Over Sampling Over Sampling은 데이터의 균형을 맞출 때 더 적은 개수의 데이터를 높이는 방식이다.
2023.05.10