기본 콘텐츠로 건너뛰기

분산 환경에서 데이터 파이프라인과 워크플로우를 구성하고 관리할 수 있는 오픈소스 도구들

 

주요 오픈소스 도구들에 대한 기본 정보를 정리하여 비교할 수 있도록 하였습니다.

Apache Airflow

가장 널리 알려지고 강력한 생태계를 자랑하는 워크플로우 관리 도구입니다.

  • 핵심 철학:
    • Code-First
  • 주요 특징:

    • Python 코드 기반: 모든 워크플로우(DAG)를 Python 코드로 정의하여 버전 관리, 테스트, 동적 파이프라인 생성이 매우 유연합니다.
    • 강력한 생태계: 거의 모든 데이터 시스템과 클라우드 서비스에 연결할 수 있는 방대한 플러그인(Provider)을 제공합니다.
  • 추천 대상:

    • Python에 익숙한 개발자 중심 팀

제품 링크: https://airflow.apache.org/

DolphinScheduler

직관적인 UI를 통해 코딩 없이 워크플로우를 설계하고 관리하는 데 중점을 둔 도구입니다.

  • 핵심 철학:
    • UI-First
  • 주요 특징:

    • 시각적 UI: 웹 UI에서 드래그 앤 드롭(Drag & Drop) 방식으로 워크플로우를 시각적으로 설계합니다.
    • 높은 안정성: 분산형 다중 마스터/워커 구조로 설계되어 특정 노드에 장애가 발생해도 중단 없이 작업을 처리할 수 있습니다.
    • 낮은 진입 장벽: 개발자가 아니더라도 데이터 분석가나 운영자가 쉽게 사용할 수 있습니다.
  • 추천 대상:

    • 다양한 역할의 사용자가 협업하는 팀

제품 링크: https://dolphinscheduler.apache.org/en-us

Prefect

현대적인 데이터 스택을 위해 설계된 유연하고 동적인 워크플로우 자동화 도구입니다.

  • 핵심 철학:
    • Dynamic & Hybrid
  • 주요 특징:

    • 동적 워크플로우: 실행 시점에 파이프라인의 구조가 변경되는 동적인 워크플로우에 강점을 보입니다.
    • 하이브리드 실행 모델: 오케스트레이션은 Prefect Cloud에서 처리하고, 실제 데이터 처리는 사용자의 안전한 인프라 내에서 실행하여 보안을 강화할 수 있습니다.
  • 추천 대상:

    • 예측 불가능한 최신 데이터 파이프라인

제품 링크: https://www.prefect.io/

Dagster

데이터 파이프라인의 개발, 테스트, 운영 전반을 지원하는 데이터 오케스트레이터입니다.

  • 핵심 철학:
    • Asset-based
  • 주요 특징:

    • 데이터 자산 중심: 코드뿐만 아니라 파이프라인이 생성하는 데이터 자산(테이블, 파일, 모델 등)을 중심으로 워크플로우를 관리합니다.
    • 강력한 개발/테스트 지원: 로컬 개발과 테스트를 강력하게 지원하여 개발 단계에서 파이프라인의 안정성을 높일 수 있습니다.
  • 추천 대상:

    • 데이터 품질과 개발 생산성을 중시하는 팀

제품 링크: https://dagster.io/

Argo Workflows

쿠버네티스(Kubernetes) 환경에 특화된 컨테이너 네이티브 워크플로우 엔진입니다.

  • 핵심 철학:
    • K8s-Native
  • 주요 특징:

    • 쿠버네티스 네이티브: 모든 워크플로우가 쿠버네티스의 CRD(Custom Resource Definition)로 정의되어 쿠버네티스 생태계와 완벽하게 통합됩니다.
    • 대규모 병렬 처리: 수천 개의 컨테이너(Pod)를 동시에 실행하며 대규모 병렬 작업을 효율적으로 처리합니다.
  • 추천 대상:

    • 인프라가 쿠버네티스 중심인 환경

제품 링크: https://argoproj.github.io/workflows/



댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...