기본 콘텐츠로 건너뛰기

라벨이 데이터인 게시물 표시

분산 환경에서 데이터 파이프라인과 워크플로우를 구성하고 관리할 수 있는 오픈소스 도구들

  주요 오픈소스 도구들에 대한 기본 정보를 정리하여 비교할 수 있도록 하였습니다. Apache Airflow 가장 널리 알려지고 강력한 생태계 를 자랑하는 워크플로우 관리 도구입니다. 핵심 철학: Code-First 주요 특징: Python 코드 기반: 모든 워크플로우(DAG)를 Python 코드로 정의 하여 버전 관리, 테스트, 동적 파이프라인 생성이 매우 유연합니다. 강력한 생태계: 거의 모든 데이터 시스템과 클라우드 서비스에 연결할 수 있는 방대한 플러그인(Provider)을 제공합니다. 추천 대상: Python에 익숙한 개발자 중심 팀 제품 링크: https://airflow.apache.org/ DolphinScheduler 직관적인 UI 를 통해 코딩 없이 워크플로우를 설계하고 관리하는 데 중점을 둔 도구입니다. 핵심 철학: UI-First 주요 특징: 시각적 UI: 웹 UI에서 드래그 앤 드롭(Drag & Drop) 방식으로 워크플로우를 시각적으로 설계합니다. 높은 안정성: 분산형 다중 마스터/워커 구조로 설계되어 특정 노드에 장애가 발생해도 중단 없이 작업을 처리할 수 있습니다. 낮은 진입 장벽: 개발자가 아니더라도 데이터 분석가나 운영자가 쉽게 사용할 수 있습니다. 추천 대상: 다양한 역할의 사용자가 협업하는 팀 제품 링크: https://dolphinscheduler.apache.org/en-us Prefect 현대적인 데이터 스택 을 위해 설계된 유연하고 동적인 워크플로우 자동화 도구입니다. 핵심 철학: Dynamic & Hybrid 주요 특징: 동적 워크플로우: 실행 시점에 파이프라인의 구조가 변경되는 동적인 워크플로우에 강점을 보입니다. 하이브리드 실행 모델: 오케스트레이션은 Prefect Cloud에서 처리하고, 실제 데이터 처리는 사용자의 안전한 인프라 내에서 실행하여 보안을 강화할 수 있습니다. 추천 대상: 예측 불가능한 최신 데이터 파이프라인 제품 링크: https://www.prefect....

데이터 시각화 요약 정리

데이터 시각화 요약 정리 데이터 시각화 유형 시간 시각화 막대 그래프(Bar Chart) 누적 막대 그래프 그룹 막대 그래프 선 차트 영역 차트 누적 영역 차트 공간 시각화 코노플레스 지도 버블맵 카토그램(Cartogram) 분포 시각화 파이 차트(Pie Chart) 도넛 차트(Donut Chart) 트리맵 차트(Tree Map Chart) 관계 시각화 산점도 산점도 행렬 버블 차트(Bubble Chart) 비교 시각화 체르노프 페이스(Chernoff Face) 플로팅 바(Floating Bar) 평행 차트(Parallel Chart) 스타 차트(Start Chart) 히트맵(Heatmap) 인포그래픽 벤 프라이 의 시각화 방법론 획득 분해 선별 마이닝 표현 정제 상호작용 자크 베르댕 의 그래픽 7 요소 위치 크기 모양 색 명도 기울기 질감 에드워드 터프티 의 시각 정보 디자인 7 원칙 정보의 밀도를 높이라. 비교를 강조하라. 다중 변수를 표현하라. 데이터 왜곡을 피하라. 잉크의 효율적인 사용. 간결하고 명확한 디자인. 시간 순서를 존중하라. 정량적 자료의 정량성을 유지하라. Written with StackEdit .