개요

Pruning 소개 및 적용 방식의 장단점

강의 내용

Chap1. Efficient Inference

<aside>

개요

스크린샷 2025-03-18 오전 8.49.08.png

스크린샷 2025-03-18 오전 8.49.55.png

스크린샷 2025-03-18 오전 8.50.03.png

스크린샷 2025-03-18 오전 8.50.27.png

</aside>

Lecture 3: Pruning and Sparsity (Part I)

중요성 및 동기

MLPerf (AI 컴퓨팅 올림픽 게임)
- 성능측정방식 : 처리량에서의 latency(지연시간)에서의 성능 테스트
- 벤치마크 두 개 존재 :
  - Closed Division : 신경망 변경 불가
  - Open Division : 여기서만 신경망 아키텍쳐 변경, Pruning(가지치기), 양자화 적용 가능
  Nvidia Blackwell platform 벤치마크 set (2024.08) / Llama 2 70B 대용량 모델 사용 / Nvidia H200 GPU 사용
- Closed Division ) 초당 4488 token 처리
- Open Division ) Pruning를 활용하여 , 초당 11189 token 처리로 늘림
  - 두가지 Pruning 기술을 사용
  - 1 ) Depth pruning : layer 수를 80개에서 32개로 줄임
  - 2 ) Width pruning : 차원(channel Dimension)을 28000에서 14000으로 줄임
  - ⇒ 그 결과 정확도 99%는 유지하며, 속도는 2.5배 상승
하드웨어 관점에서의 pruning(가지치기)의 중요성
- 메모리는 비싸고, 연산은 저렴, 메모리 이동은 산술연산보다 2배
- 32bit DRAM Memory 접근은 600이상의 PJ(에너지)를 발생시키므로, 데이터 이동 훨씬 비쌈
- 딥러닝을 더 효율적으로 만드는 방법
  - 메모리 양 / 모델 크기 / 활성화 크기 줄이기

Neural Network Pruning

<aside>

Pruning 소개
- Pruning 이란?
- Pruning 수식을 계산하는 방법
Pruning 세부사항 결정
- 어떤 패턴으로 Pruning 해야할지
Pruning 우선순위 결정
- 어떤 기중으로 뉴런을 Pruning 해야할지
Pruning 비율 결정
- 줄일 수 있는 중복성, 줄일 수 있는 양
Pruning된 뉴럴네트워크를 fine-tunning하고 Train하기
- Pruning된 모델의 성능을 향상시키기 위한 방법 </aside>
Pruning 소개
- Pruning(가지치기) 계산방법
  
  <aside>
  
  formula
  
  $\arg \underset{W_p}{\min}$ $L(x;Wp)$ (단, $∥W_p∥_0≤N$ )
  - $L$ 은 신경망 학습의 손실 함수
  - 입력데이터 : $x$, 기존 가중치들 : $W$, 가지치기된 가중치들 : $W_p$
  - $∥W_p∥_0$ 는 $W_p$ 에서 Norm00이 아닌 가중치의 개수, $N$은 프루닝 후 남길 가중치 최대 개수 </aside>

Pruning 소개

인간의 뇌에서 일어나는 Pruning
Neural Network에서의 Pruning

Model의 weight들 중 중요도가 낮은 weight의 연결에 대해 weight들을 최대한 sparse(희소하게 : 대부분의 값이 0이도록) 하게 만들어 모델의 파라미터를 줄이는 방법
- Pruning이 정확도에 미치는 영향, 2015년 실험
BaseLine : AlexNet을 사용하여 달성할 수 있는 정확도(기준, 0%)와, 특정 layer의 가중치 분포

Y(Accuracy Loss) : 정확도 손실 정도, X(Pruning Ratio) : Pruning 적용 비율

Pruning : Pruning하는 비율을 늘릴수록 기준대비 정확도 감소, 특정 layer의 0에 가까운 가중치들이 제거된 분포

→ 가중치 70% 제거시 정확도 1% 감소, 80% 제거시 정확도 4% 감소

Pruning + Finetuning (남아있는 가중치들로 재학습) : Pruning하는 비율을 늘려도 정확도 감소 정도 크지않음, 재학습 후 특정 layer의 가중치 분포

→ 동일한 80% 감소에서, 정확도 4% 감소하던게 해당 방법은 정확도 손실 없음

Pruning + Finetuning 반복 : Pruning 비율 더 많이 늘려도 정확도 정도 크지 않음

→ Pruning 후 남은 가중치들로 재학습 ⇒ 다시 pruning ⇒ 다시 재학습

단, 각 단계에서 너무 공격적으로 Pruning을 진행하지 않아야 결과 더 좋음
이미지 작업에서의 Pruning의 효과

AlexNet : [매개변수] 6100만개 → Pruning 후 670만개로 감소, 9배 감소 [연산량] 3배 감소

Parameters : 가중치(weight)와 편향(bias)의 총 개수 (단, bias는 파라미터에서 큰 비중을 차지하지X)

MACs : 입력데이터를 처리할 때 수행하는 연산량 (덧셈,곱셈 연산의 총개수)

Convolutional Layer의 MACs=(커널 높이×커널 너비×입력 채널×출력 채널×출력FeatureMap 크기)
시각 언어 작업에서도 효과있는 Pruning

Pruning 90%& 95% 한 모델이 더 자세하게 이미지를 설명하더라
Pruning 관련 논문 발표도 늘어나고 있음