기본 콘텐츠로 건너뛰기

큰 JSON 파일 파싱 Python 라이브러리 성능 비교

큰 JSON 파일 파싱 Python 라이브러리 성능 비교

1. 개요

1.1. 이 문서의 목적

  • 큰 JSON 파일을 파싱할 때 메모리 사용량과 속도 측면에서 JSON 파싱 Python 라이브러리들을 비교해 봅니다.

1.2. 독자

  • 큰 JSON 파일을 파싱하여 처리하고자 하는 개발자

1.3. 사전 지식

  • Python 프로그래밍 기초
  • JSON 파일 형식

2. 준비

2.1. 테스트 환경

테스트를 위해 사용한 환경은 다음과 같습니다.

  • CPU: 12th Gen Intel Core i7-12700H x 20
  • Memory: 32GB
  • OS: Ubuntu 22.04.2 LTS

2.2. 데이터

샌프란시스코의 지리 정보를 담고 있는 City Lots San Francisco in .json 파일을 테스트 데이터로 사용합니다. 데이터의 JSON 구조는 아래와 같습니다.

{
    "type": "FeatureCollection",
    "features": [
        {
            "type": "Feature",
            "properties": {
                "MAPBLKLOT": "0001001",
                ...
                "LOT_NUM": "001",
                ...
            },
            "geometry": {
                "type": "Polygon",
                "coordinates": [
                    ...
                ]
            }
        },
        ...
        {
            "type": "Feature",
            "properties": {
                "MAPBLKLOT": "VACSTWIL",
                ...
                "LOT_NUM": "WIL",
                ...
            },
            "geometry": {
                "type": "Polygon",
                "coordinates": [
                    ...
                ]
            }
        }
    ]
}
  • 파일 크기: 181MB
  • features 속성의 배열 크기: 206560

2.3. 라이브러리

라이브러리 스트리밍 방식 여부 특징
json X 파이썬 기본 패키지에 포함
ujson X UltraJSON (순수 C로 작성하였고 빠름)
orjson X 빠르고 json보다 올바르다(correct)고 함
ijson O High-level, low-level 인터페이스 제공 (items, kvitems, parse)
json-streamer O 부분 입력 가능
bigjson O 필요할 때 파일로부터 읽음

2.4. 테스트 스크립트

다음 각각의 작업을 수행할 때마다 스크립트를 새롭게 시작하는 방식으로 메모리 사용량과 소요 시간을 측정합니다.

  • JSON 파일의 앞 부분에서 LOT_NUM 속성의 값 얻기
  • JSON 파일의 마지막 부분에서 LOT_NUM 속성의 값 얻기

테스트 스크립트는 python-lib-test에 있습니다.

3. 테스트 결과

JSON 파일의 앞 부분 LOT_NUM 값 얻기

라이브러리 메모리(MB) 속도(초)
json 855 2.96
ujson 1035.7 2.72
orjson 862.6 2.12
ijson.items() 14.4 0.00
ijson.parse() 14.8 0.00
json-streamer 17.3 0.00
bigjson 15.0 0.00

JSON 파일의 마지막 부분 LOT_NUM 값 얻기

라이브러리 메모리(MB) 속도(초)
json 855 2.94
ujson 1035.5 2.76
orjson 888.2 2.21
ijson.items() 15.2 2.10
ijson.parse() 14.8 2.79
json-streamer 17.5 22.87
bigjson 15.8 325.23

위 표를 보면 메모리 사용량 및 속도 측면에서 ijson이 가장 좋은 결과를 보여주고 있음을 알 수 있습니다.

중요!!!

  • 라이브러리 비교 순위는 JSON 데이터의 구조와 테스트 시나리오에 따라 달라질 수도 있습니다.

참고

  • JSON 파일을 처음부터 끝까지 파일 읽기(file read)만 수행하기
    • 소요 시간: 0.05초
  • Python RegEx 라이브러리(import re)를 사용하여 마지막 부분 LOT_NUM 값 얻기
    • 메모리 사용량: 12.2MB
    • 소요 시간: 0.15초

4. 더 읽어 볼만한 자료

  1. Processing large JSON files in Python without running out of memory by Itamar Turner-Trauring

Written with StackEdit.

댓글

이 블로그의 인기 게시물

Intel MKL 예제를 Microsoft Visual C++로 빌드하기

Intel MKL 예제를 Microsoft Visual C++로 빌드하기 인텔 프로세서 시스템에서 아래의 영역에 해당하는 수학 계산을 빠르게 수행하고자 한다면 Intel MKL 라이브러리를 사용할 수 있습니다. Linear Algebra Fast Fourier Transforms (FFT) Vector Statistics & Data Fitting Vector Math & Miscellaneous Solvers 이 문서는 Intel MKL 이 제공하는 예제 파일을 Microsoft Visual C++ 로 컴파일하고 링크하여 실행 파일을 만드는 과정을 소개합니다. 빌드 환경 다음은 이 문서를 작성하는 과정에서 Intel MKL 예제를 빌드하기 위하여 사용한 환경입니다. 시스템 운영체제: Windows 10 (64비트) 프로세서: Intel Core i7 설치 제품 IDE: Microsoft Visual Studio Community 2019 (version 16) 라이브러리: Intel Math Kernel Library 2019 Update 5 환경 변수 명령 프롬프트 창을 엽니다. 아래 스크립트를 실행하여 환경 변수 INCLUDE , LIB , 그리고 PATH 를 설정합니다. @echo off set CPRO_PATH=C:\Program Files (x86)\IntelSWTools\compilers_and_libraries\windows set MKLROOT=%CPRO_PATH%\mkl set REDIST=%CPRO_PATH%\redist set INCLUDE=%MKLROOT%\include;%INCLUDE% set LIB=%MKLROOT%\lib\intel64;%LIB% set PATH=%REDIST%\intel64\mkl;%PATH% REM for OpenMP intel thread set LIB=%CPRO_PATH%\compiler\lib...

Llama 3.2로 문장 생성 및 챗팅 완성 실습

Llama 3.2로 문장 생성 및 챗팅 완성 실습 Running Meta Llama on Linux 문서의 내용을 참고하여 Llama 3.2 1B 모델로 다음 두 가지 기능을 실습합니다. 문장 완성 챗팅 완성 실습 환경 Ubuntu 20.04.6 LTS Python 3.12.7 Llama3.2-1B, Llama3.2-1B-Instruct rustc 1.83.0 NVIDIA RTX 4090 24GB 프로그램 준비 실습에서 사용할 wget , md5sum 설치 sudo apt-get install wget sudo apt-get install md5sum NVIDIA GPU 설치 여부 확인 nvidia-smi 실습 디렉토리 만들기 mkdir llama3-demo cd llama3-demo git clone https://github.com/meta-llama/llama3.git Python 3.10 이상의 버전으로 가상환경 만들고 활성화 python -m venv llama-venv . llama-venv/bin/activate Rust 컴파일러 설치 How To Install Rust on Ubuntu 20.04 문서를 참고하여 Rust 컴파일러를 설치합니다. curl --proto '=https' --tlsv1.3 https://sh.rustup.rs -sSf | sh 위 명령을 실행하면 아래와 같이 세 가지 선택 옵션이 나타나는데 그냥 엔터를 쳐서 1번 옵션으로 진행합니다. ... 1) Proceed with installation (default) 2) Customize installation 3) Cancel installation 아래 명령을 실행하여 현재 쉘에 반영하고 설치된 컴파일러 버전을 확인합니다. source $HOME/.cargo/env rustc --version 의존 라이브러리 설치 pip install ...