기본 콘텐츠로 건너뛰기

Intel MKL 사용하여 행렬곱 계산 속도 개선하기

Intel MKL 사용하여 행렬곱 계산 속도 개선하기

행렬곱을 계산할 때 Intel MKL을 사용하면 계산 속도가 얼마나 빨라지는지 알아보기 위하여 여러 가지 방법으로 실험을 해 보았습니다.

실험 환경

시스템

  • 프로세서: Intel Core i7-8550U CPU
  • 메모리: 16.0GB
  • 운영체제: Windows 10 (64-bit)
  • 전원 공급: AC adapter

라이브러리

  • Intel MKL 2019 Update 5
  • Eigen 3.3.7

컴파일러

  • MSVC++ Version 2019 (16.0)

소스 코드

완전한 소스 코드 중에서 설명을 위해 필요한 부분만 아래에 제시합니다.

방법-1. C 언어 3중 루프 사용

double *A, *B, *C;
int m, n, p, i, j, k;
double sum;

m = 2000, p = 200, n = 1000;
A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );
B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );
C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

for (i = 0; i < m; i++) {
    for (j = 0; j < n; j++) {
        sum = 0.0;
        for (k = 0; k < p; k++)
            sum += A[p*i+k] * B[n*k+j];
        C[n*i+j] = sum;
    }
}

방법-2. Intel MKL dgemm 함수 사용 (1개의 쓰레드)

double *A, *B, *C;
int m, n, p;
double alpha, beta;
int thread_num;

m = 2000, p = 200, n = 1000;
alpha = 1.0; beta = 0.0;
thread_num = 1;
A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );
B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );
C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

mkl_set_num_threads(thread_num);
cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, 
    m, n, p, alpha, A, p, B, n, beta, C, n);

방법-3. Intel MKL dgemm 함수 사용 (4개의 쓰레드)

  • 방법-2의 소스 코드에서 thread_num 변수의 값을 아래와 같이 수정합니다.

    thread_num = 4;
    

방법-4. Eigen 라이브러리 사용

int m = 2000;
int p = 200;
int n = 1000;

MatrixXd A(m,p);
MatrixXd B(p,n);

MatrixXd C = A * B;

방법-5. Eigen 라이브러리 사용하고 백엔드로 Intel MKL 지정

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 EIGEN_USE_MKL_ALL 매크로를 정의합니다.

방법-6. Eigen 라이브러리 사용하고 /arch:AVX 옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /arch:AVX 를 지정합니다.

방법-7. Eigen 라이브러리 사용하고 /openmp 옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp 를 지정합니다.

방법-8. Eigen 라이브러리 사용하고 /openmp와 /arch:AVX옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp/arch:AVX 를 지정합니다.

계산 속도

아래 표에서 경과 시간은 변수 초기화 과정을 포함하지 않습니다.

방법 설명 경과 시간 (milliseconds)
방법-1 3중 루프 1194.3
방법-2 cblas_dgemm API 15.1 (1 OpenMP intel thread)
7.6 (1 TBB thread)
방법-3 cblas_dgemm API, multi-threaded 8.5 (4 OpenMP intel threads)
8.4 (4 TBB threads)
방법-4 Eigen 2782.0
방법-5 Eigen + Intel MKL backend 35.0
방법-6 Eigen with /arch:AVX 1421.0
방법-7 Eigen with /openmp 722.0
방법-8 Eigen with /openmp & /arch:AVX 407.0

참고 자료

  • Eigen FAQ - How can I enable vectorization?

    You just need to tell your compiler to enable the corresponding instruction set, and Eigen will then detect it. If it is enabled by default, then you don’t need to do anything.

  • MSVC Compiler Options - /arch (x64)

    The /arch option enables the use of certain instruction set extensions, particularly for vector calculation, available in processors from Intel and AMD.

Written with StackEdit.

댓글

  1. 좋은 포스트 잘 봤습니다. 항상 궁금했는데 실험하긴 귀찮아서 내버려두고 있었는데요^^...
    그런데 일반적인 3중 루프보다 Eigen 라이브러리가 느린 이유가 뭘까요?
    MKL malloc 때문에 컴파일러가 자동적으로 SIMD 코드를 생성하기 때문일까요?
    그런데 Eigen 라이브러리도 SIMD를 지원하는 것으로 알고 있는데요.
    혹시 이유를 아신다면 알려주세요~

    답글삭제
    답글
    1. SIMD와 관련된 자료를 좀 더 찾아서 방법-6,7,8을 추가하고 실험한 결과를 본문에 추가하였습니다. 질문에 대해 적합한 답변을 드릴만큼 이러한 주제에 대해 이해하고 있지는 못합니다. 나중에 혹시 더 공부하게 되면 답변을 시도해 보겠습니다. 감사합니다.

      삭제
  2. 작성자가 댓글을 삭제했습니다.

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

Intel MKL 예제를 Microsoft Visual C++로 빌드하기

Intel MKL 예제를 Microsoft Visual C++로 빌드하기 인텔 프로세서 시스템에서 아래의 영역에 해당하는 수학 계산을 빠르게 수행하고자 한다면 Intel MKL 라이브러리를 사용할 수 있습니다. Linear Algebra Fast Fourier Transforms (FFT) Vector Statistics & Data Fitting Vector Math & Miscellaneous Solvers 이 문서는 Intel MKL 이 제공하는 예제 파일을 Microsoft Visual C++ 로 컴파일하고 링크하여 실행 파일을 만드는 과정을 소개합니다. 빌드 환경 다음은 이 문서를 작성하는 과정에서 Intel MKL 예제를 빌드하기 위하여 사용한 환경입니다. 시스템 운영체제: Windows 10 (64비트) 프로세서: Intel Core i7 설치 제품 IDE: Microsoft Visual Studio Community 2019 (version 16) 라이브러리: Intel Math Kernel Library 2019 Update 5 환경 변수 명령 프롬프트 창을 엽니다. 아래 스크립트를 실행하여 환경 변수 INCLUDE , LIB , 그리고 PATH 를 설정합니다. @echo off set CPRO_PATH=C:\Program Files (x86)\IntelSWTools\compilers_and_libraries\windows set MKLROOT=%CPRO_PATH%\mkl set REDIST=%CPRO_PATH%\redist set INCLUDE=%MKLROOT%\include;%INCLUDE% set LIB=%MKLROOT%\lib\intel64;%LIB% set PATH=%REDIST%\intel64\mkl;%PATH% REM for OpenMP intel thread set LIB=%CPRO_PATH%\compiler\lib...

Llama 3.2로 문장 생성 및 챗팅 완성 실습

Llama 3.2로 문장 생성 및 챗팅 완성 실습 Running Meta Llama on Linux 문서의 내용을 참고하여 Llama 3.2 1B 모델로 다음 두 가지 기능을 실습합니다. 문장 완성 챗팅 완성 실습 환경 Ubuntu 20.04.6 LTS Python 3.12.7 Llama3.2-1B, Llama3.2-1B-Instruct rustc 1.83.0 NVIDIA RTX 4090 24GB 프로그램 준비 실습에서 사용할 wget , md5sum 설치 sudo apt-get install wget sudo apt-get install md5sum NVIDIA GPU 설치 여부 확인 nvidia-smi 실습 디렉토리 만들기 mkdir llama3-demo cd llama3-demo git clone https://github.com/meta-llama/llama3.git Python 3.10 이상의 버전으로 가상환경 만들고 활성화 python -m venv llama-venv . llama-venv/bin/activate Rust 컴파일러 설치 How To Install Rust on Ubuntu 20.04 문서를 참고하여 Rust 컴파일러를 설치합니다. curl --proto '=https' --tlsv1.3 https://sh.rustup.rs -sSf | sh 위 명령을 실행하면 아래와 같이 세 가지 선택 옵션이 나타나는데 그냥 엔터를 쳐서 1번 옵션으로 진행합니다. ... 1) Proceed with installation (default) 2) Customize installation 3) Cancel installation 아래 명령을 실행하여 현재 쉘에 반영하고 설치된 컴파일러 버전을 확인합니다. source $HOME/.cargo/env rustc --version 의존 라이브러리 설치 pip install ...