텍스트 분류를 위한 순환 신경망 이해

1. 개요

텍스트의 정서가 긍정적인지, 부정적인지 분류하는 순환 신경망(Recurrent Neural Network, RNN) 모델에 대하여 설명
RNN 모델의 오류 역전파에 대하여 상세히 설명
구현 코드를 작성하지는 않지만 구현이 가능한 수준으로 설명

2. 문제 정의

텍스트의 정서가 긍정적인지, 부정적인지 표시되어 있는 데이터 세트를 사용하여 텍스트의 정서 분류 기능을 학습
1. 데이터 세트는 $N$ 개의 텍스트와 각각의 텍스트에 대한 정서 분류값을 가지고 있음
2. 각각의 텍스트를 구성하고 있는 단어 수는 서로 다른 값을 가질 수도 있음
3. 정서 분류는 부정적(0), 긍정적(1)으로 구분
새로운 텍스트에 대하여 정서가 긍정적인지, 부정적인지 예측

3. 문제 해결 과정

데이터 기반 예측 문제의 해결 과정을 아래의 세 단계로 나누어 볼 수 있습니다.

주어진 데이터 세트의 특성을 잘 나타내는 모델 함수를 정의합니다. 모델 함수가 가지고 있는 파라미터들은 데이터 세트에 맞도록 값이 조정되는 요소들입니다.
데이터 세트의 참값과 모델 함수가 예측하는 값의 차이의 정도를 나타내는 비용 함수를 정의합니다.
데이터 세트에 대하여 비용을 줄여나가는 방향으로 모델 파라미터를 조정합니다. 비용이 최솟값에 가까워질 때까지 파라미터 조정 과정을 반복합니다.

이렇게 얻은 모델 함수를 사용하여 새로운 데이터가 주어질 때 예측하고자 하는 값이 얼마일지 추정합니다.

4. 모델 함수 정의

$\begin{alignat}{4} h_{t}& = tanh (W_{xh} \cdot x_{t} + W_{hh} \cdot h_{t-1}+ b_{h}) \\ y& = W_{hy} \cdot h_{n} + b_{y} \\ p_{i}& = softmax(y_{i}) = \frac {e^{y_i}} { \sum_{i=0}^1 e^{y_i} } \\ \end{alignat}$

$t$ 는 텍스트를 구성하는 단어의 순서에 따라 부여한 인덱스 (0부터 시작)
$i$ 는 분류 범주에 부여한 인덱스 (0: negative, 1: positive)
$x_t$ 는 t 시점에서 입력 단어의 벡터
$h_t$ 는 t 시점에서 RNN 네트워크의 상태 벡터 ( $h_{-1}$ 은 값이 0인 벡터)
$y$ 는 RNN 네트워크의 출력 벡터
$p$ 는 범주별 예측 확률 벡터
$W_{xh}$ , $W_{hh}$ , $W_{hy}$ 는 모델 학습 파라미터 행렬
$b_{h}$ , $b_{y}$ 는 모델 바이어스 파라미터 벡터

5. 비용 함수 정의

비용 함수로 크로스-엔트로피 손실(cross-entropy loss)을 사용합니다.

$\begin{alignat}{4} L&=-ln(p_{c}) \end{alignat}$

$c$ 는 참인 범주
$p_c$ 는 참인 범주일 확률

6. 모델 파라미터 찾기

경사하강법을 사용하여 모델의 파라미터를 찾습니다.

입력 텍스트가 3개의 단어로 이루어져 있는 경우를 예로 들어 설명을 진행합니다.

6.1. 경사도 수식 도출

찾고자 하는 파라미터를 변경하였을 때 영향을 받는 변수들을 화살표로 표시해 봅니다. 이를 토대로 파라미터 변경에 대한 비용 함수의 경사도 수식을 도출할 것입니다.

$\begin{alignat}{4} \frac {\partial L}{\partial W_{hy}}& = \frac {\partial y}{\partial W_{hy}} \cdot \frac {\partial L}{\partial y} \end{alignat}$

$\begin{alignat}{4} \frac {\partial L}{\partial b_{y}}& = \frac {\partial y}{\partial b_{y}} \cdot \frac {\partial L}{\partial y} \end{alignat}$

위의 경사도 수식에서 각각의 항목을 구하면 아래와 같습니다.

$\begin{alignat}{4} \frac {\partial y}{\partial W_{hy}}& = h_{2} \\ \frac {\partial y}{\partial b_{y}}& = 1 \end{alignat}$

$\begin{alignat}{4} \frac {\partial L}{\partial W_{xh}}& = \frac {\partial h_2}{\partial W_{xh}} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_1}{\partial W_{xh}} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_0}{\partial W_{xh}} \cdot \frac {\partial h_1}{\partial h_0} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \end{alignat}$

$\begin{alignat}{4} \frac {\partial L}{\partial W_{hh}}& = \frac {\partial h_2}{\partial W_{hh}} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_1}{\partial W_{hh}} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_0}{\partial W_{hh}} \cdot \frac {\partial h_1}{\partial h_0} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \end{alignat}$

$\begin{alignat}{4} \frac {\partial L}{\partial b_{h}}& = \frac {\partial h_2}{\partial b_{h}} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_1}{\partial b_{h}} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \\ & + \frac {\partial h_0}{\partial b_{h}} \cdot \frac {\partial h_1}{\partial h_0} \cdot \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \end{alignat}$

위의 경사도 수식을 좀 더 정리할 수 있습니다.

$\begin{alignat}{4} \frac {\partial L}{\partial W_{xh}}& = \frac {\partial h_2}{\partial W_{xh}} \cdot \frac {\partial L}{\partial h_2} + \frac {\partial h_1}{\partial W_{xh}} \cdot \frac {\partial L}{\partial h_1} + \frac {\partial h_0}{\partial W_{xh}} \cdot \frac {\partial L}{\partial h_0} \\ \frac {\partial L}{\partial W_{hh}}& = \frac {\partial h_2}{\partial W_{hh}} \cdot \frac {\partial L}{\partial h_2} + \frac {\partial h_1}{\partial W_{hh}} \cdot \frac {\partial L}{\partial h_1} + \frac {\partial h_0}{\partial W_{hh}} \cdot \frac {\partial L}{\partial h_0} \\ \frac {\partial L}{\partial b_{h}}& = \frac {\partial h_2}{\partial b_{h}} \cdot \frac {\partial L}{\partial h_2} + \frac {\partial h_1}{\partial b_{h}} \cdot \frac {\partial L}{\partial h_1} + \frac {\partial h_0}{\partial b_{h}} \cdot \frac {\partial L}{\partial h_0} \end{alignat}$

$\begin{alignat}{4} \frac {\partial L}{\partial h_2}& = \frac {\partial y}{\partial h_2} \cdot \frac {\partial L}{\partial y} \\ \frac {\partial L}{\partial h_1}& = \frac {\partial h_2}{\partial h_1} \cdot \frac {\partial L}{\partial h_2} \\ \frac {\partial L}{\partial h_0}& = \frac {\partial h_1}{\partial h_0} \cdot \frac {\partial L}{\partial h_1} \end{alignat}$

위의 수식 (18) ~ (23)을 계산하는데 필요한 항목들을 구하면 아래와 같습니다.

$\begin{alignat}{4} \frac {\partial y}{\partial h_2}& = W_{hy} \\ \frac {\partial h_2}{\partial h_1}& = (1-{h_2}^2) \cdot W_{hh} \\ \frac {\partial h_1}{\partial h_0}& = (1-{h_1}^2) \cdot W_{hh} \end{alignat}$

$\begin{alignat}{4} \frac {\partial h_2}{\partial W_{xh}}& = (1 - {h_2}^2) \cdot x_2 \\ \frac {\partial h_1}{\partial W_{xh}}& = (1 - {h_1}^2) \cdot x_1 \\ \frac {\partial h_0}{\partial W_{xh}}& = (1 - {h_0}^2) \cdot x_0 \end{alignat}$

$\begin{alignat}{4} \frac {\partial h_2}{\partial W_{hh}}& = (1 - {h_2}^2) \cdot h_1 \\ \frac {\partial h_1}{\partial W_{hh}}& = (1 - {h_1}^2) \cdot h_0 \\ \frac {\partial h_0}{\partial W_{hh}}& = (1 - {h_0}^2) \cdot h_{-1} \end{alignat}$

$\begin{alignat}{4} \frac {\partial h_2}{\partial b_{h}}& = (1 - {h_2}^2) \cdot 1 \\ \frac {\partial h_1}{\partial b_{h}}& = (1 - {h_1}^2) \cdot 1 \\ \frac {\partial h_0}{\partial b_{h}}& = (1 - {h_0}^2) \cdot 1 \end{alignat}$

남은 항목 $\frac {\partial L}{\partial y}$ 의 계산 과정은 생략하고 결과만 적으면 아래와 같습니다.

$\begin{alignat}{4} \frac {\partial L}{\partial y_i}& = p_i &{, \quad for \quad i \ne c} \\ \frac {\partial L}{\partial y_i}& = p_i - 1 &{, \quad for \quad i = c} \end{alignat}$

이제 경사도 계산에 필요한 모든 항목을 구할 수 있게 되었습니다.

학습 파라미터 $W_{hh}, W_{hy}$
입력 데이터 $x_0, x_1, x_2$
은닉 상태 $h_{-1}, h_0, h_1, h_2$
출력 결과 $p$

6.2. 반복 수행

비용 함수의 값이 최솟값에 가까워지도록 아래의 과정을 수행합니다.

지정한 epoch 수만큼 반복
1. 텍스트의 수만큼 반복
  1. 예측 및 오류 계산
    1. 오류 역전파 과정에서 사용하기 위하여 $x_0, x_1, x_2$ 보관
    2. $t = 0, 1, 2$ 에 대하여 수식 (1)을 적용
    3. 오류 역전파 과정에서 사용하기 위하여 $h_0, h_1, h_2$ 보관
    4. 위의 결과로 얻은 $h_2$ 에 대하여 수식 (2), (3)을 적용
    5. 수식 (4)를 통해서 오류 계산
  2. 오류 역전파
    1. 수식 (36), (37) 계산
    2. 수식 (5) ~ (8)로 비용 함수의 $W_{hy}$ , $b_y$ 에 대한 경사도 계산
    3. $t = 2, 1, 0$ 에 대하여 수식 (18) ~ (35)로 비용 함수의 $W_{xh}$ , $W_{hh}$ , $b_h$ 에 대한 경사도 계산
  3. 파라미터 조정
    $\begin{alignat}{4} W_{hy}& -= l_r \times \frac {\partial L}{\partial W_{hy}} \\ b_{y}& -= l_r \times \frac {\partial L}{\partial b_{y}} \\ W_{xh}& -= l_r \times \frac {\partial L}{\partial W_{xh}} \\ W_{hh}& -= l_r \times \frac {\partial L}{\partial W_{hh}} \\ b_{h}& -= l_r \times \frac {\partial L}{\partial b_{h}} \\ \end{alignat}$

$l_r$ 은 학습 속도
입력 텍스트의 단어 개수는 텍스트별로 다른 값일 수 있으므로 단어 순서에 따라 매기는 인덱스 $t$ 의 크기도 달라질 수 있습니다.

7. 새로운 텍스트의 정서 분류

새로운 텍스트가 4개의 단어로 이루어져 있는 경우를 예로 들어 정서를 분류해 봅니다.

$t = 0, 1, 2, 3$ 에 대하여 수식 (1)을 적용
위의 결과로 얻은 $h_3$ 에 대하여 수식 (2), (3)을 적용
$p_0$ (부정적), $p_1$ (긍정적) 중에서 큰 값의 분류를 채택

Written with StackEdit.

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...

자세한 내용 보기

천천히, 제대로

이 블로그 검색