천천히, 제대로

글

6월, 2025의 게시물 표시

[신경망 이해] 경사하강법에서 손실 값의 변화

[신경망 이해] 경사하강법에서 손실 값의 변화 모델 파라미터 변경에 따른 손실의 변화율 손실 함수 위의 한 지점(현재 파라미터)에서 손실 값의 변화가 가장 큰 방향을 계산할 수 있습니다. 이를 기울기(Gradient)라고 합니다. 즉, 기울기는 '특정 파라미터를 조금 변경했을 때, 손실 값이 얼마나 변하는가’를 나타내는 값입니다. 손실을 줄이는 방향으로 모델 파라미터 수정 기울기는 손실이 가장 크게 '증가’하는 방향을 가리킵니다. 우리의 목표는 손실을 '감소’시키는 것이므로, 기울기의 반대 방향으로 파라미터를 조금씩 이동시켜야 합니다. 경사하강법의 종류와 손실 값의 변화 경사하강법은 기울기를 계산할 때 사용하는 데이터의 양에 따라 크게 세 가지 방식으로 나뉩니다. 이 방식에 따라 손실 값의 변화 양상과 학습 효율성이 크게 달라집니다. 구분 설명 Batch Gradient Descent 데이터세트 전체를 대상으로 손실을 계산하고 모델 파라미터 조정 (데이터세트의 크기: N N N ) Stochastic Gradient Descent 데이터세트에서 임의로 선택한 한 개의 데이터를 대상으로 손실을 계산하고 모델 파라미터 조정 Mini-batch Gradient Descent 데이터세트에서 임의로 선택한 m m m 개의 데이터를 대상으로 손실을 계산하고 모델 파라미터 조정 ( 1 < m < N 1 < m < N 1 < m < N ) 배치 경사하강법(Batch Gradient Descent) 진짜 경사도를 계산해서 파라미터를 조정하기 때문에 이 과정을 반복함에 따라 손실 값은 줄어드는 방향으로 이동합니다. 미니배치 경사하강법(Mini-batch Gradient Descent) 진짜 경사도가 아니라 근사 경사도를 계산해서 파라미터를 조정하기 때문에 이 과정을 반복하는 과정에서 손실 값은 증가와 감소를 반복하면서 어떤 값...

자세한 내용 보기

[신경망 이해] 모델 학습 세 단계

1. 모델 함수 정의 (Model Function Definition) 이 단계는 "가설을 세우는 단계"라고 할 수 있습니다. 데이터의 입력(X)과 출력(Y) 사이에 어떤 수학적 관계가 있을 것이라고 가정하고, 그 관계를 나타내는 함수를 정의합니다. 이 함수를 '모델' 또는 '가설(Hypothesis)'이라고 부릅니다. 역할: 입력 변수들을 사용해서 예측값을 어떻게 계산할지 구조를 결정합니다. 예시: 선형 회귀 (Linear Regression): 입력(x)과 출력(y) 사이에 직선 관계가 있다고 가정하고, 모델 함수를 H(x)=Wx+b 와 같이 정의합니다. 여기서 W(가중치)와 b(편향)가 우리가 찾아야 할 파라미터입니다. 신경망 (Neural Network): 여러 개의 뉴런과 활성화 함수를 복잡하게 연결하여 비선형 관계를 표현할 수 있는 매우 유연한 함수를 정의합니다. 2. 비용 함수 정의 (Cost Function Definition) 이 단계는 "모델의 예측이 얼마나 틀렸는지 측정하는 기준을 세우는 단계"입니다. 모델이 예측한 값(H(x))과 실제 정답(y) 사이의 차이(오차)를 계산하는 함수를 정의합니다. 이 함수를 '비용 함수(Cost Function)' 또는 '손실 함수(Loss Function)'라고 합니다. 역할: 모델의 성능을 정량적인 숫자로 평가합니다. 비용 함수의 값이 작을수록 모델의 예측이 더 정확하다는 의미입니다. 목표: 이 비용 함수의 값을 최소화하는 것이 학습의 목표가 됩니다. 예시: 평균 제곱 오차 (Mean Squared Error, MSE): 회귀 문제에서 주로 사용되며, (예측값 - 실제값)²의 평균을 계산합니다. 교차 엔트로피 (Cross-Entropy): 분류 문제에서 주로 사용되며, 모델의 예측 확률 분포와 실제 정답 분포의 차이를 측정합니다. 3. 모델 파라미터 찾기 (Finding Model Parameters) 이 단계...

자세한 내용 보기

[트랜스포머 이해] Attention 함수

Attention 함수 정의 3.2Attention An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key. 출처: Attention Is All You Need Attention 함수 비유

자세한 내용 보기

[트랜스포머 이해] Multi-head Encoder-Decoder Attention

Attention 함수 Q, K, V 얻기 Attention Score Matrix 계산 Attention Value 계산

자세한 내용 보기

[트랜스포머 이해] Multi-head Self-Attention

Attention 함수 Q, K, V 얻기 Attention Score Matrix 계산 Attention Value 계산

자세한 내용 보기

회귀(Regression)라는 용어를 쉽게 설명하는 방법

회귀(Regression)라는 용어를 쉽게 설명하는 방법 조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다. 조별 단체 식사 준비와 회귀 현상 발생 100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다. 10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다. 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다. 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다. 내가 속한 조에서는 몇 주 후에 담당할 식사 준비를 두고 약간의 걱정 섞인 농담이 오고간다. “우리는 컵라면을 고려하고 있었는데 이러면 컵라면을 내놓기는 어렵겠는데요.” “이 시점에서 컵라면으로 식사 기대치를 좀 낮추는 것도 필요하지 않을까요?” “여러 종류의 컵라면을 준비하고 밥과 김치를 함께 제공하면 나름대로 괜찮을 겁니다.” 위의 사례에서처럼 식사 품질이 무한히 상승하거나 하강하는 것을 억제하는 작용들이 일어나서 결국 어떤 지점을 중심으로 들쭉날쭉하는 모습을 보일 것이며 이에 대해 다음과 같이 말할 수 있습니다. 식사 품질이 어떤 지점으로 돌아가는 현상을 가리켜 회귀라고 한다. 회귀가 지속적으로 일어나면 경향성을 가지고 있는 것으로 간주한다. 회귀 지점이 어디인지를 찾는 것을 회귀 문제를 푼다라고 말한다. 회귀라는 용어가 어렵게 느껴지는 이유 '회귀’의 사전적 의미는 '돌아간다’입니다. 그런데 '회귀 문제’라고 부르는 특정 유형의 문제를 좀 더 세부적으로 설명하는 아래의 내용을 보면 여러 변수들 간의 상관 관계를 다루는 문...

자세한 내용 보기

뇌 가소성 - 3. 학습과 기억 활동에 따른 시냅스 강화 과정(장기강화작용, LTP)

학습이나 기억 활동을 통해 특정 시냅스에서 신경전달물질이 지속적이고 강력하게(높은 빈도로) 분비되면 이 신호가 바로 '스위치'가 되어, 신호를 받는 수상돌기 쪽에서 기능적, 구조적 변화를 포함한 연쇄 반응을 일으킵니다. 1. AMPA 수용체는 왜, 어떻게 증가하는가? (기능적 강화) AMPA 수용체의 증가는 늘어난 신경전달물질을 더 효과적으로 받아내기 위한 수상돌기 쪽의 '능동적인 대응'입니다. 1단계 (스위치 작동): 강력하고 빈번한 신호(글루탐산 분비)가 도착하면, 시냅스 막에 있는 NMDA 수용체라는 특수 장치가 활성화되어 다량의 칼슘( C a 2 + )을 세포 안으로 받아들입니다. 이 칼슘이 바로 리모델링 프로그램을 작동시키는 '시작 신호'입니다. 2단계 (AMPA 수용체 동원): 유입된 칼슘은 세포 내 신호 전달 체계를 통해 "이 시냅스는 매우 중요하니 수신 감도를 높여라!"라는 명령을 내립니다. 이 명령에 따라 수상돌기 내부에 보관되어 있던 여분의 AMPA 수용체들이 활성화된 시냅스의 표면으로 이동하여 배치됩니다. 3단계 (효율 증대): 이제 같은 양의 신경전달물질이 와도 더 많은 AMPA 수용체가 동시에 반응하므로, 수상돌기는 훨씬 더 강력한 신호를 생성할 수 있습니다. 2. 수상돌기는 왜, 어떻게 두꺼워지는가? (구조적 강화) 수상돌기가 두꺼워진다는 것은, 더 정확히 말해 '수상돌기 가시(Dendritic Spine)의 머리 부분이 커지는 것'을 의미합니다. 수상돌기 전체가 굵어지는 것이 아니라, 신호가 오가는 특정 시냅스가 위치한 '가시'의 구조가 변하는 것입니다. 1단계 (기능 강화에 따른 요구): 늘어난 AMPA 수용체를 안정적으로 배치하고, 효율적인 신호 처리를 위해서는 더 넓고 튼튼한 공간이 필요합니다. 기능적 강화(AMPA 수용체 증가)가 구조적 강화를 유도하는 셈입니다. 2단계 (세포 골격의 재구성): AMPA 수용체 증가를 유발했던 칼...

자세한 내용 보기

잠들기 전의 나와 잠에서 깬 나는 이어지는 나인가?

잠들기 전의 나와 잠에서 깬 나는 이어지는 나인가? 이 글에서, 개체-A: 잠들기 전의 나 개체-B: 잠에서 깬 나 (개체-A의 일부 세포 변화) 의식 이전(transfer) t2 시점에 개체-A의 의식을 완벽하게 이전하여 개체-B의 의식 생성 시점 개체-A 개체-B 비고 t1 나(1) 존재 X t2 존재 X 나(3) 의식 복제와 동시에 개체-A 소멸 t3 존재 X 나(5) 의식 인지 각 개체가 느끼는 의식의 연속성 (기억) 시점 개체-A 개체-B 비고 t1 나(1) 나(1) t2 존재 X 나(3) 의식 복제와 동시에 개체-A 소멸 t3 존재 X 나(5) 개체-A: 나(1) 개체-B: 나(1) -> 나(3) -> 나(5) 개체 간 의식의 독립성 t3 시점에 나(5)만 존재하고 자신을 고유 개체로 인지 결론 의식 이전이 완료된 이후의 개체-B는 나(1)에서부터 이어지는 고유한 나이다. Written with StackEdit .

자세한 내용 보기

이전(transfer)된 나의 의식은 나인가?

이전(transfer)된 나의 의식은 나인가? 의식 이전(transfer) t2 시점에 개체-A의 의식을 완벽하게 이전하여 개체-B의 의식 생성 시점 개체-A 개체-B 비고 t1 나(1) 존재 X t2 존재 X 나(3) 의식 복제와 동시에 개체-A 소멸 t3 존재 X 나(5) 의식 인지 각 개체가 느끼는 의식의 연속성 (기억) 시점 개체-A 개체-B 비고 t1 나(1) 나(1) t2 존재 X 나(3) 의식 복제와 동시에 개체-A 소멸 t3 존재 X 나(5) 개체-A: 나(1) 개체-B: 나(1) -> 나(3) -> 나(5) 개체 간 의식의 독립성 t3 시점에 나(5)만 존재하고 자신을 고유 개체로 인지 결론 의식 이전이 완료된 이후의 개체-B는 나(1)에서부터 이어지는 고유한 나이다. Written with StackEdit .

자세한 내용 보기

복제(duplicate)된 나의 의식은 나인가?

복제(duplicate)된 나의 의식은 나인가? 의식 복제(duplicate) t2 시점에 개체-A의 의식을 완벽하게 복제하여 개체-B의 의식 생성 시점 개체-A 개체-B 비고 t1 나(1) 존재 X t2 나(2) 나(3) 의식 복제 t3 나(4) 나(5) 의식 인지 각 개체가 느끼는 의식의 연속성 (기억) 시점 개체-A 개체-B 비고 t1 나(1) 나(1) t2 나(2) 나(3) 의식 복제 t3 나(4) 나(5) 개체-A: 나(1) -> 나(2) -> 나(4) 개체-B: 나(1) -> 나(3) -> 나(5) 개체 간 의식의 독립성 t3 시점의 나(4)와 나(5)는 상대를 타인으로 인식 t3 시점에 개체-A, 개체-B가 상호 정보 교환을 통해 t1 시점의 의식이 사실상 서로 동일함을 알게 되더라도 각자가 느끼는 의식의 연속성, 독립성은 그대로 유지됨 결론 의식 복제가 완료된 이후의 개체-A, 개체-B는 각자 나(1)에서부터 이어지는 고유한 나이다. 그렇지만 두 개체는 상대를 타인으로 인식한다. Written with StackEdit .

자세한 내용 보기

동전 던지기 정보량이 1 비트보다 작을 수도 있다?

동전 던지기 정보량이 1 비트보다 작을 수도 있다? 다음 두 가지 사항이 이 글을 이해하는데 도움이 될 것입니다. 미시 상태를 대상으로 계산하는 값 정보량 거시 상태를 대상으로 계산하는 값 정보량에 대한 기댓값 엔트로피 본문에서 동전의 앞면과 뒷면을 지칭할 때 아래 기호를 사용하기도 합니다. h h h : 동전 앞면(head) t t t : 동전 뒷면(tail) 미시 상태(microstate), 거시 상태(macrostate) 정의 동전 열 개를 던지는 시행에서 미시 상태와 거시 상태를 다음과 같이 정의할 수 있습니다. 미시 상태: 시행의 결과로 나타난 각 동전의 면을 지칭하는 값들의 배열 예: 0 1 0 0 1 1 1 0 1 0 (0: 뒷면, 1: 앞면) 거시 상태: 미시 상태로부터 얻을 수 있는 값 예: 5 (앞면이 나온 동전의 개수) 특정 거시 상태에 해당하는 미시 상태들의 개수는 어떤 거시 상태냐에 따라 다를 수 있습니다. 정보량, 기댓값, 엔트로피 수식 정의 아래 수식에서, x x x : 개별 사건 P ( x ) P(x) P ( x ) : 사건 x x x 가 발생할 확률 I ( x ) I(x) I ( x ) : 발생한 사건이 x x x 임을 알았을 때 얻게 되는 정보량 X X X : 확률 변수 E [ I ( X ) ] E[I(X)] E [ I ( X )] : 정보원으로부터 얻을 수 있는 정보량에 대한 기댓값 H [ X ] H[X] H [ X ] : 정보원의 엔트로피 특정 사건의 정보량(Information Content): I ( x ) = − l o g 2 P ( x ) \begin{align} I(x) = -log_2{P(x)} \end{align} I ( x ) = − l o g 2 P ( x ) 정보량에 대한 기댓값: X X X 가 이산 확률 변수일 경우 E [ I ( X ) ] = ∑ i P ( x i ) I (...

자세한 내용 보기