기본 콘텐츠로 건너뛰기

Intel MKL 사용하여 행렬곱 계산 속도 개선하기

Intel MKL 사용하여 행렬곱 계산 속도 개선하기

행렬곱을 계산할 때 Intel MKL을 사용하면 계산 속도가 얼마나 빨라지는지 알아보기 위하여 여러 가지 방법으로 실험을 해 보았습니다.

실험 환경

시스템

  • 프로세서: Intel Core i7-8550U CPU
  • 메모리: 16.0GB
  • 운영체제: Windows 10 (64-bit)
  • 전원 공급: AC adapter

라이브러리

  • Intel MKL 2019 Update 5
  • Eigen 3.3.7

컴파일러

  • MSVC++ Version 2019 (16.0)

소스 코드

완전한 소스 코드 중에서 설명을 위해 필요한 부분만 아래에 제시합니다.

방법-1. C 언어 3중 루프 사용

double *A, *B, *C;
int m, n, p, i, j, k;
double sum;

m = 2000, p = 200, n = 1000;
A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );
B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );
C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

for (i = 0; i < m; i++) {
    for (j = 0; j < n; j++) {
        sum = 0.0;
        for (k = 0; k < p; k++)
            sum += A[p*i+k] * B[n*k+j];
        C[n*i+j] = sum;
    }
}

방법-2. Intel MKL dgemm 함수 사용 (1개의 쓰레드)

double *A, *B, *C;
int m, n, p;
double alpha, beta;
int thread_num;

m = 2000, p = 200, n = 1000;
alpha = 1.0; beta = 0.0;
thread_num = 1;
A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );
B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );
C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

mkl_set_num_threads(thread_num);
cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, 
    m, n, p, alpha, A, p, B, n, beta, C, n);

방법-3. Intel MKL dgemm 함수 사용 (4개의 쓰레드)

  • 방법-2의 소스 코드에서 thread_num 변수의 값을 아래와 같이 수정합니다.

    thread_num = 4;
    

방법-4. Eigen 라이브러리 사용

int m = 2000;
int p = 200;
int n = 1000;

MatrixXd A(m,p);
MatrixXd B(p,n);

MatrixXd C = A * B;

방법-5. Eigen 라이브러리 사용하고 백엔드로 Intel MKL 지정

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 EIGEN_USE_MKL_ALL 매크로를 정의합니다.

방법-6. Eigen 라이브러리 사용하고 /arch:AVX 옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /arch:AVX 를 지정합니다.

방법-7. Eigen 라이브러리 사용하고 /openmp 옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp 를 지정합니다.

방법-8. Eigen 라이브러리 사용하고 /openmp와 /arch:AVX옵션으로 컴파일

  • 방법-4의 소스 코드를 사용하고 컴파일러 옵션으로 /openmp/arch:AVX 를 지정합니다.

계산 속도

아래 표에서 경과 시간은 변수 초기화 과정을 포함하지 않습니다.

방법 설명 경과 시간 (milliseconds)
방법-1 3중 루프 1194.3
방법-2 cblas_dgemm API 15.1 (1 OpenMP intel thread)
7.6 (1 TBB thread)
방법-3 cblas_dgemm API, multi-threaded 8.5 (4 OpenMP intel threads)
8.4 (4 TBB threads)
방법-4 Eigen 2782.0
방법-5 Eigen + Intel MKL backend 35.0
방법-6 Eigen with /arch:AVX 1421.0
방법-7 Eigen with /openmp 722.0
방법-8 Eigen with /openmp & /arch:AVX 407.0

참고 자료

  • Eigen FAQ - How can I enable vectorization?

    You just need to tell your compiler to enable the corresponding instruction set, and Eigen will then detect it. If it is enabled by default, then you don’t need to do anything.

  • MSVC Compiler Options - /arch (x64)

    The /arch option enables the use of certain instruction set extensions, particularly for vector calculation, available in processors from Intel and AMD.

Written with StackEdit.

댓글

  1. 좋은 포스트 잘 봤습니다. 항상 궁금했는데 실험하긴 귀찮아서 내버려두고 있었는데요^^...
    그런데 일반적인 3중 루프보다 Eigen 라이브러리가 느린 이유가 뭘까요?
    MKL malloc 때문에 컴파일러가 자동적으로 SIMD 코드를 생성하기 때문일까요?
    그런데 Eigen 라이브러리도 SIMD를 지원하는 것으로 알고 있는데요.
    혹시 이유를 아신다면 알려주세요~

    답글삭제
    답글
    1. SIMD와 관련된 자료를 좀 더 찾아서 방법-6,7,8을 추가하고 실험한 결과를 본문에 추가하였습니다. 질문에 대해 적합한 답변을 드릴만큼 이러한 주제에 대해 이해하고 있지는 못합니다. 나중에 혹시 더 공부하게 되면 답변을 시도해 보겠습니다. 감사합니다.

      삭제
  2. 작성자가 댓글을 삭제했습니다.

    답글삭제

댓글 쓰기

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...