분류 전체보기(754)
-
[이론정리] RNN 모델 정리
그러니까 rnn 모델을 정리를 해볼게. 먼저 문장을 구성하는 단어가 input으로 들어올 거야 이때 하나의 단어가 input으로 들어가겠지. 그 단어는 인코더를 통해 숫자로 변환되게 될거야 그게 곧 임베딩이지. 그렇게 숫자가 layer로 들어가게 되면 이전의 히든 스테이트의 값과의 연산을 통해 새로운 히든 스테이트 값이 나오게 될거야 그것은 그 다음 layer로 들어가게 되고 또한 softmax 함수를 통해 단어 예측이라든지 분류를 할 수도 있지. 이때 이러한 과정들을 배치 단위로 진행하게 되면 병렬적으로 연산이 가능해지지. 예를 들어 배치의 크기가 4라면 4배 만큼 속도가 빨라지겠지 그러니까 하나의 단어가 인풋으로 들어가게 된다면 그 단어에 대한 손실을 계산하고 배치 내 모든 단어들의 손실을 평균하여 ..
2023.03.31 -
[git] 부스트코스 git강의를 들으며 배운 것들 정리
정교하게 컨트롤하기 위해서 dropbox와 달리 수동으로 push를 한다. Pull = fetch + merge 시간 여행을 할 때 checkout 다시 돌아올 때 master 테두리 안을 누르고 체크아웃 테두리 밖을 누르면 안된다. main과 master는 같은 거 Origin = 원격 저장소의 이름(별칭) git graph에서 테두리가 진하다 = head가 가리키고 있다. 충돌이 생기면 공부부터 하고 다시 보자. 그게 훨씬 빠르다. (https://seomal.com/map/1) 특별한 이유가 없으면 commit하고 바로 push를 하자. Pull request에 branch를 올려놓으면 자동으로 conflict 여부를 확인할 수 있다. branch로 작업할 때 conflict를 미리미리 해결하는 습..
2023.03.27 -
[이론정리] Pyplot의 text, color, facet, grid
Text 시각화로 전달할 수 없는 요소들을 전달 가능 할 수 있는 것 Title, Label, Tick label(x 값, y 값의 이름 바꾸기), Legend(두 종류 이상의 데이터가 있을 때 데이터 라벨링), Annotation(Text) Color 최대 10개 정도 사용하는 것이 적합. 너무 많으면 구분이 안감 하나의 색상: 전체적인 분포 보기에 적합 여러 색상: 이산적인 개별 값에 적합 Sequential 연속형으로 연속적으로 변하는 데이터 표현에 적합 Diverge 중앙을 기준으로 발산. 예) 온도가 0을 기준으로 위이면 빨간색, 아래이면 파란색 강조 그리고 색상 대비 명도 대비 색상 대비 채도 대비 보색 대비 Facet 화면 분할: 여러 개의 시각화를 한번에 보여주는 것 figure는 큰 틀..
2023.03.24 -
[이론정리] Scatter plot
두 feature 간의 관계를 알기 위해 사용 마커는 색, 모양, 크기로 구성 상관 관계 확인 목적 군집, 값 사이의 차이, 이상치 정확한 scatter plot 투명도 조정, 지터링(점 위치 변경), 2차원 히스토그램, 컨투어 플롯 인과관계와 상관관계 추세선 grid는 지양
2023.03.23 -
[이론정리] Line plot
꺾은선 그래프 시계열 분석에 특화 .plot() Line plot의 요소 색상(color) 마커(marker, markersize) 선의 종류(linestyle, linewidth) noise를 줄이기 위해 smoothing 사용(평균) 전처리가 필요 정확한 line plot 꼭 축을 0에 초점을 둘 필요는 없음 추세에 집중!!!!!!! 간격 규칙적인 간격이 아니면 오해를 줄 수 있다. 점을 잇는 보간은 일반적인 분석에서는 지양 이중 축 사용 한 plot에 대해 2개의 축을 사용 서로 다른 종류의 데이터를 표현하기 위해 한 데이터에 대해 다른 단위 But 그래프 두 개 사용하는 것이 가독성이 높음 Etc Min/max 정보 Uncertainty 표현
2023.03.23 -
[이론 정리] Bar plot
직사각형 막대를 이용해 데이터의 값을 표현하는 차트 .bar() vertical, .barh() horizontal 플롯을 여러 개 그리는 방법 한 개의 플롯에 동시에 나타내는 방법 1. 쌓아서 표현 그룹의 순서는 항상 유지 맨 밑의 분포만 알기 쉬움 Percentage stacked bar chart 2. 겹쳐서 표현 2개 그룹만 비교한다면 겹쳐서 만드는 것도 하나의 선택지 투명도 조절 3. 이웃에 배치하여 표현 그룹별 범주에 따른 바를 이웃되게 배치 수치형 데이터가 적합 5-7 이하일때 효과적. Etc, 상위 몇 개만 그리고 정확한 바 플롯 실제값과 그에 표현되는 그래픽으로 표현되는 잉크 양은 비례해야함 x축의 시작은 0 가독성 높이기 위해 X 데이터 정렬 순서가 있으면 정렬 여러 가지 기준으로 정렬..
2023.03.23