전체 글

공부한 것, 배운 것들을 기록합니다
InceptionNet-v1 2013년도 ZFNet : 11x11 -> 7x7 visualization 해서 제일 좋을 것이라고 진단을 하고 나서 씀 Hebb's Rule : 가장 도움이 되는 것에 weight가 커질 것. 어떤 weight가 가장 클 것 -> 3x3 convoultion인지 5x5 convolution인지 학습을 통해서 알 수 있을 것 즉, 학습을 통해 가장 중요한 것의 weight가 커진다는 것이 기본 생각 NIN에서 차원을 맞추지 않으면 갯수가 안 맞아서 더하기 어려운 것을 확인했기 때문에 차원을 맞추는 테크닉이 필요함. concatenate를 통해 여러 convolution을 계산함. pooling은 당연히 다를 수 밖에 없음. 1x1 convolution 은 차원만 줄이는 역할을..
ZFNet 목표 : AlexNet에서 pooling을 시켰을 때 어떤 상태인지 확인하기 의의 : Visualization, ablation study pooling한 것을 복원하면 디테일이 다 죽기 때문에 완벽하게 복원이 안 되고, 가장 큰 값이 무엇인지 확인이 가능함 AlexNet과 다른 점 11x11, /4 -> 7x7, /2 : 7x7 receptive field가 더 성능이 좋은 것을 확인 가능함 + parameter도 줄어드는 부차적인 효과가 있음 overlapping pooling abulation study 관점에서 convolution의 활성화 영역을 보는 것. 푸른 색일 수록 크게 영향을 미쳤음을 확인 할 수 있고, 만약 회색 filter가 있는 영역이 파란색으로 표현이 되었으면 그 영역..
LeNet-5 현대 MNEST는 28x28을 받지만, LeNet-5는 32x32를 input 받을. 당시에 convolution은 아직 발전하지 않았기 때문에 전통적인 Fully Connected의 영향을 받음. 전통적인 Fully connected는 위치에 민감하기 때문에, Object가 한 가운데 위치하는 것이 좋았음. 그래서 padding을 하여 Object를 가운데 위치하게 함 Input : 32x32 약간 더 크게 함. 당시 Convolution에 대한 이해가 크지 않았기 때문에, 전통적인 machine learning에 사용했던 이미지 전처리를 적용함 C1 : feature map 6@28x28 논문에는 설명이 없음. stride = 1, padding 없는 것을 기본 옵션으로 생각하면 됨. ..
3.1. Convolution Layers 3.1.1 Tiled Convolution Tiled CNN은 인접한 단위로 pooling함으로써 complex invariances을 학습하여, 인접한 은hidden units가 동일한 weights를 공유할 필요가 없음. 또한 learned parameter가 적다는 CNN의 장점이 있음 3.1.2 Transposed Convolution 이 논문에서는 'Deconvolution'이라는 용어를 사용하고 있는데, 기존의 convolution과 비교하여, Deconvolution은 single activation을 multiple output activation과 연관시킴. (d)는 unit stride와 zero padding을 사용한 4x4 input에 대한..
3. Efficient Training 3.1 Large-batch traninig 작은 batch size로 training 시키는 것과 비교하면, batch size가 클 경우 동일 epoch에서 validation accuracy가 낮게 나타나는 것을 확인할 수 있음. 따라서 본 논문에선느 single machine training에 대해 batch size를 확장하는것에 도움이 될 수 있는 four heuristics에 대해 실험을 함 Linear scaling learning rate mini-batsch SGD에서 각 배치에서 샘플이 랜덤하게 선택되기 때문에 gradient descending은 random porcess였음. large batch size가 기울기의 nosie를 감소시켰기 때..
복습 약 10년 전에는 sigmoid가 아주 유명했지만, gradient Vanishing 문제가 발생함에 따라서 대부분 ReLU를 사용하고 있습니다. 또한 가중치 초기화에 대해 배웠습니다. 가중치 초기화가 너무 작으면 activation이 사라지고, 너무 크게 되면 결국엔 explode 되어 학습이 안 되게 됩니다. ) 그리고 데이터 전처리에 대해서 배웠습니다. 왜 normalization이 필요한가에 대해서 좀 더 자세히 말한다면, 손실함수가 아주 약간의 가중치 변화에도 민감하기 때문에, 동일한 함수를 쓰더라도 학습이 어렵기 때문입니다. 반면 zero-center, unit variance인 경우 손실함수가 덜 민감해지기 때문에 최적화가 싶고 학습이 더 잘되는 효과가 있기 때문입니다. 이론상으로는 성..
Hanna 한나
평범하듯, 흔하지 않게