논문리뷰

You Only Look Once: Unified, Real-Time Object Detection 2 Stage Object Detection : 위치 → 분류 1 Stage Object Detection : 위치 + 분류 → Confidence = acc. + IoU ⇒ confidence 50% 이상인 경우에만 물체가 있을 확률이 높다고 판단, 50% 이하의 경우 무시 Abstract 속도가 매우 빠름, 45 frame/second (cf. Faster-RCNN 0.5 sec/frame) YOLO가 당시 SOTA detection model에 비하여 localization error가 더 있지만 background에 대한 false-positive가 더 적음 : 있는데 없다고 하는 경우는 더 적음 ..
Normalization 정규화 IMG_SIZE = 180 resize_and_rescale = tf.keras.Sequential([ layers.Resizing(IMG_SIZE, IMG_SIZE), layers.Rescaling(1./255)]) '정규화'라고 번역이 되는데 Regularization, Standardzation과 차이가 무엇일까? Normalization : 값 범위를 왜곡시키지 않고 데이터셋을 공통 스케일로 변경하는 것. ex. KNN, K-means 등 distance based algorithms을 사용할 때 입력 데이터의 범위를 한정 시키는 것. Min-max scaling 등 Z-score normalizatioin : 편차가 크면 over fitting 문제가 생기기 때문..
InceptionNet-v1 2013년도 ZFNet : 11x11 -> 7x7 visualization 해서 제일 좋을 것이라고 진단을 하고 나서 씀 Hebb's Rule : 가장 도움이 되는 것에 weight가 커질 것. 어떤 weight가 가장 클 것 -> 3x3 convoultion인지 5x5 convolution인지 학습을 통해서 알 수 있을 것 즉, 학습을 통해 가장 중요한 것의 weight가 커진다는 것이 기본 생각 NIN에서 차원을 맞추지 않으면 갯수가 안 맞아서 더하기 어려운 것을 확인했기 때문에 차원을 맞추는 테크닉이 필요함. concatenate를 통해 여러 convolution을 계산함. pooling은 당연히 다를 수 밖에 없음. 1x1 convolution 은 차원만 줄이는 역할을..
ZFNet 목표 : AlexNet에서 pooling을 시켰을 때 어떤 상태인지 확인하기 의의 : Visualization, ablation study pooling한 것을 복원하면 디테일이 다 죽기 때문에 완벽하게 복원이 안 되고, 가장 큰 값이 무엇인지 확인이 가능함 AlexNet과 다른 점 11x11, /4 -> 7x7, /2 : 7x7 receptive field가 더 성능이 좋은 것을 확인 가능함 + parameter도 줄어드는 부차적인 효과가 있음 overlapping pooling abulation study 관점에서 convolution의 활성화 영역을 보는 것. 푸른 색일 수록 크게 영향을 미쳤음을 확인 할 수 있고, 만약 회색 filter가 있는 영역이 파란색으로 표현이 되었으면 그 영역..
LeNet-5 현대 MNEST는 28x28을 받지만, LeNet-5는 32x32를 input 받을. 당시에 convolution은 아직 발전하지 않았기 때문에 전통적인 Fully Connected의 영향을 받음. 전통적인 Fully connected는 위치에 민감하기 때문에, Object가 한 가운데 위치하는 것이 좋았음. 그래서 padding을 하여 Object를 가운데 위치하게 함 Input : 32x32 약간 더 크게 함. 당시 Convolution에 대한 이해가 크지 않았기 때문에, 전통적인 machine learning에 사용했던 이미지 전처리를 적용함 C1 : feature map 6@28x28 논문에는 설명이 없음. stride = 1, padding 없는 것을 기본 옵션으로 생각하면 됨. ..
3.1. Convolution Layers 3.1.1 Tiled Convolution Tiled CNN은 인접한 단위로 pooling함으로써 complex invariances을 학습하여, 인접한 은hidden units가 동일한 weights를 공유할 필요가 없음. 또한 learned parameter가 적다는 CNN의 장점이 있음 3.1.2 Transposed Convolution 이 논문에서는 'Deconvolution'이라는 용어를 사용하고 있는데, 기존의 convolution과 비교하여, Deconvolution은 single activation을 multiple output activation과 연관시킴. (d)는 unit stride와 zero padding을 사용한 4x4 input에 대한..
Hanna 한나
'논문리뷰' 태그의 글 목록