AI

    Forward propagation & Back propagation

    Forward propagation & Back propagation

    Forward propagation 순한맛 훈련 샘플이 1개라고 가정하자. 매 layer에서 1. w^T x + b 해야 되니까 w의 길이 = 입력값의 크기 b의 길이 = 입력값의 크기 2. w를 세로로 쌓는 횟수 = 출력값의 크기 매운맛 훈련 샘플이 m개라고 가정하자. 오른쪽으로 가면 $\rightarrow$ 샘플의 번호 증가 아래로 가면 $\rightarrow$ 유닛(노드)의 번호 증가 저 그림 하나가 샘플 하나에 대한 그림이긴 한데 저 노드들이 사실 화면 안쪽으로 쭉 이어져있고 가려져 있다고 생각하면 안쪽이 더 번호가 큰 샘플에 해당 중요 X(= A^[0]), Z, A 모두 0열이 바깥으로 나오는 형태로 칩이 꽂혀있다고 생각하니 쉽네! (W 1행) x + (b 1행) = (z 1행) 생각하면 W의 ..

    로지스틱 회귀

    $\hat{y} := P(y=1|x) := \sigma (w^Tx+b),\ $ where $\sigma : $ logistic function. Maximum Log-Likelihood Estimation을 수행하면 모수 $w, b$를 추정할 수 있다. (엄밀하게 말하면 모수는 $\sigma(w^T x + b)$ 이다. p(y|x) = Bern($\sigma(w^T x + b)$) 이기 때문이다. 하지만 x를 알고 있기 때문에 자연스럽게 w, b도 추정할 수 있게 된다.) $\displaystyle L = \prod_{i=1}^{m}{P(y^{(i)}|x^{(i)})}$. $\displaystyle LL = \sum_{i=1}^{m}log{P(y^{(i)}|x^{(i)})}$. Cost funtion $..

    Perceptron Convergence Theorem Proof

    목표 vector $w^\star$, 현재 vector $w$ 라고 하자. Data set {($(\mathbf{x_1}, y_1)$, ... , $(\mathbf{x_d}, y_d)$} 가 주어졌다고 하자. WLOG, $||w^\star|| = 1$, $||\mathbf{x}|| \leq 1$ 이라고 하자. ( 모든 data에 $\mathbf{x_i} \leftarrow \mathbf{x_i} / max(\mathbf{x})$ 해도 같은 hyperplane 얻는다 ) WLOG, $w = 0$ 으로 시작한다고 하자. $w^\star$의 정의에 따라 모든 $(\mathbf{x}, y)$에 대해 $y x^T w^\star > 0$이 성립한다. Lemma : $y x^T w^\star \geq \gamma$ ..