페이지

2024년 10월 22일 화요일

Python 객체 저장 - pickle, pickletools

Python 객체 저장 - pickle, pickletools

pickle, pickletools 모듈 문서

pickle - Python object serialization

  • Protocol version 0 is the original “human-readable” protocol and is backwards compatible with earlier versions of Python.
  • Protocol version 1 is an old binary format which is also compatible with earlier versions of Python.
  • Protocol version 2 was introduced in Python 2.3. It provides much more efficient pickling of new-style classes. Refer to PEP 307 for information about improvements brought by protocol 2.
  • Protocol version 3 was added in Python 3.0. It has explicit support for bytes objects and cannot be unpickled by Python 2.x. This was the default protocol in Python 3.0–3.7.
  • Protocol version 4 was added in Python 3.4. It adds support for very large objects, pickling more kinds of objects, and some data format optimizations. It is the default protocol starting with Python 3.8. Refer to PEP 3154 for information about improvements brought by protocol 4.
  • Protocol version 5 was added in Python 3.8. It adds support for out-of-band data and speedup for in-band data. Refer to PEP 574 for information about improvements brought by protocol 5.

pickletools — Tools for pickle developers

명령 실행 예시

아래 소스 코드를 실행하여 튜플 (1, 2)를 x.pickle 파일로 저장합니다.

from pickle import dump, load

t = (1, 2) 

with open('x.pickle', 'wb') as f: 
    dump(t, f) 

print(f'Write Done: {t}')

x.pickle 파일에 대한 pickle, pickletools 명령 실행 예시입니다.

$ python -m pickle x.pickle 
(1, 2) 
$ python -m pickletools x.pickle 
    0: \x80 PROTO 3 
    2: K BININT1 1 
    4: K BININT1 2 
    6: \x86 TUPLE2 
    7: q BINPUT 0 
    9: . STOP 
highest protocol among opcodes = 2

위에서 pickle은 x.pickle 파일에 저장되어 있는 객체를 복원하여 출력하고 pickletools는 x.pickle 파일을 파싱하여 출력합니다.

Keras 2와 3에서 Tokenizer 객체 저장 및 읽기 테스트

Tokenizer 객체의 pickle 파일은 Keras 2와 Keras 3 간에 호환되지 않습니다. 테스트를 통해서 그 이유를 파악해 봅니다.

아래 소스 코드는 Tokenizer 객체를 tokenizer.pkl 파일에 저장합니다.

from tensorflow.keras.preprocessing.text import Tokenizer 
from pickle import dump 

sample_texts = [ 
    '산악용 자전거' , 
    '자전거 전조등 후미등' , 
    '온라인 상품권' , 
    '온라인 상품 세트' 
] 

sample_tokenizer = Tokenizer() 
sample_tokenizer.fit_on_texts(sample_texts) 

dump(sample_tokenizer, open('tokenizer.pkl', 'wb'))

위 코드를 Keras 2에서 실행하여 tokenizer.pkl 파일을 생성하고 Keras 3에서 읽기를 시도합니다.

$ python -m pickle tokenizer.pkl 
... 
ModuleNotFoundError: No module named 'keras.src.preprocessing'

Keras 2에서 생성한 tokenizer.pkl 파일을 Keras 3에서 읽는 과정에서 오류가 발생했고 pickletools로 tokenizer.pkl 파일에 대하여 좀 더 자세한 정보를 출력해 봅니다.

$ python -m pickletools tokenizer.pkl 
     0: \x80 PROTO 4 
     2: \x95 FRAME 587 
    11: \x8c SHORT_BINUNICODE 'keras.src.preprocessing.text' 
    41: \x94 MEMOIZE (as 0) 
    42: \x8c SHORT_BINUNICODE 'Tokenizer' 
    53: \x94 MEMOIZE (as 1) 
    ...

이번에는 위 코드를 Keras 3에서 실행하여 tokenizer.pkl 파일을 생성하고 Keras 2에서 읽기를 시도합니다.

$ python -m pickle tokenizer.pkl 
... 
ModuleNotFoundError: No module named 'keras.src.legacy'

Keras 3에서 생성한 tokenizer.pkl 파일을 Keras 2에서 읽는 과정에서 오류가 발생했고 pickletools로 tokenizer.pkl 파일에 대하여 좀 더 자세한 정보를 출력해 봅니다.

python -m pickletools tokenizer.pkl 
     0: \x80 PROTO 4 
     2: \x95 FRAME 594 
    11: \x8c SHORT_BINUNICODE 'keras.src.legacy.preprocessing.text' 
    48: \x94 MEMOIZE (as 0) 
    49: \x8c SHORT_BINUNICODE 'Tokenizer' 
    60: \x94 MEMOIZE (as 1) 
    ...

Keras 2와 비교하여 Keras 3에서 Tokenizer를 저장하고 읽을 때 사용하는 모듈의 이름이 바뀌었고 이름 중에 legacy가 들어가 있습니다.

  • Keras 2: keras.src.preprocessing.text
  • Keras 3: keras.src.legacy.preprocessing.text

이것은 아마도 아래와 같이 Tokenizer 상태를 DEPRECATED로 바꾼 것과 관련이 있어 보입니다.

  • Tokenizer는 DEPRECATED 상태

※ 참고: preprocessing 모듈 전체가 DEPRECATED 상태

정리

  • Tokenizer 객체의 pickle 파일은 Keras 2와 Keras 3 간에 호환되지 않습니다. 호환되지 않는 이유는 Tokenizer 직렬화에 사용하는 Keras 모듈의 이름이 바뀌었기 때문이며 pickle 프로토콜 버전과는 관련이 없습니다.

Written with StackEdit.

2024년 10월 21일 월요일

TensorFlow 버전과 Keras 2 또는 3 버전

TensorFlow 버전과 Keras 2 또는 3 버전

개요

실습 목적

  • Python 버전에 따라 설치할 수 있는 TensorFlow 버전이 어떻게 달라지는지 파악합니다.
  • TensorFlow를 설치하면 Keras도 설치됩니다. 어느 버전의 TensorFlow부터 Keras 3가 설치되는지 파악합니다.
  • Keras 2.15.0에서 발생하는 TextVectorization 객체 직렬화 문제가 Keras 3에서는 발생하지 않는지 파악합니다.

실습 환경

Windows 10 환경에서 실습하고 문서를 작성하였습니다. 가상 환경 도구로는 Python 기본 라이브러리에 포함되어 있는 venv를 사용하였습니다.

SW 버전
Python
  • 3.9.3
  • 3.12.4
  • pip
  • 22.0.4
  • 24.0
  • TensorFlow
  • 2.15.1
  • 2.16.2
  • Keras
  • 2.15.0
  • 3.4.1
  • Python 3.9.13 + TensorFlow

    Python 설치 파일 다운로드 위치

    설치된 Python과 pip 버전 확인

    >python --version
    Python 3.9.13
    >pip --version
    pip 22.0.4 from C:\Users\user1\AppData\Local\Programs\Python\Python39\lib\site-packages\pip (python 3.9)
    

    설치 가능한 TensorFlow 버전 출력

    >pip index versions tensorflow
    WARNING: pip index is currently an experimental command. It may be removed/changed in a future release without prior warning.
    tensorflow (2.17.0)
    Available versions: 2.17.0, 2.16.2, 2.16.1, 2.15.1, 2.15.0, 2.14.1, 2.14.0, 2.13.1, 2.13.0, 2.12.1, 2.12.0, 2.11.1, 2.11.0, 2.10.1, 2.10.0, 2.9.3, 2.9.2, 2.9.1, 2.9.0, 2.8.4, 2.8.3, 2.8.2, 2.8.1, 2.8.0, 2.7.4, 2.7.3, 2.7.2, 2.7.1, 2.7.0, 2.6.5, 2.6.4, 2.6.3, 2.6.2, 2.6.1, 2.6.0, 2.5.3, 2.5.2, 2.5.1, 2.5.0
    

    TensorFlow 2.15.1 설치

    1. 가상환경 만들기

      >python -m venv py39_tf215
      >py39_tf215\Scripts\activate.bat
      
    2. TensorFlow 설치

      (py39_tf215) >pip install tensorflow==2.15.1
      
    3. TensorFlow와 Keras 버전 출력

      (py39_tf215) C:\DevEnv>python -c "import tensorflow; print(tensorflow.__version__)"
      2.15.1
      (py39_tf215) C:\DevEnv>python -c "import keras; print(keras.__version__)"
      2.15.0
      
    4. 가상환경 종료

      (py39_tf215) C:\DevEnv>py39_tf215\Scripts\deactivate.bat
      

    TensorFlow 2.16.2 설치

    1. 가상환경 만들기

      >python -m venv py39_tf216
      >py39_tf216\Scripts\activate.bat
      
    2. TensorFlow 설치

      (py39_tf216) >pip install tensorflow==2.16.2
      
    3. TensorFlow와 Keras 버전 출력

      (py39_tf216) C:\DevEnv>python -c "import tensorflow; print(tensorflow.__version__)"
      2.16.2
      (py39_tf216) C:\DevEnv>python -c "import keras; print(keras.__version__)"
      3.4.1
      
    4. 가상환경 종료

      (py39_tf216) C:\DevEnv>py39_tf216\Scripts\deactivate.bat
      

    Python 3.12.4 + TensorFlow

    Python 설치 파일 다운로드 위치

    설치된 Python과 pip 버전 확인

    >python --version
    Python 3.12.4
    >pip --version
    pip 24.0 from C:\Users\user1\AppData\Local\Programs\Python\Python312\Lib\site-packages\pip (python 3.12)
    

    설치 가능한 TensorFlow 버전 출력

    >pip index versions tensorflow
    WARNING: pip index is currently an experimental command. It may be removed/changed in a future release without prior warning.
    tensorflow (2.17.0)
    Available versions: 2.17.0, 2.16.2, 2.16.1
    

    TensorFlow 2.16.1 부터 설치 가능하고 이 버전을 설치하면 Keras 3가 함께 설치됩니다.

    그렇다고 Keras 2를 설치할 수 없다는 것은 아닙니다. 아래와 같이 Keras 2, Keras 3에 해당하는 다양한 버전을 설치할 수 있습니다.

    >pip index versions keras
    WARNING: pip index is currently an experimental command. It may be removed/changed in a future release without prior warning.
    keras (3.4.1)
    Available versions: 3.4.1, 3.4.0, 3.3.3, 3.3.2, 3.3.1, 3.3.0, 3.2.1, 3.2.0, 3.1.1, 3.1.0, 3.0.5, 3.0.4, 3.0.3, 3.0.2, 3.0.1, 3.0.0, 2.15.0, 2.14.0, 2.13.1, 2.12.0, 2.11.0, 2.10.0, 2.9.0, 2.8.0, 2.7.0, 2.6.0, 2.4.3, 2.4.2, 2.4.1, 2.4.0, 2.3.1, 2.3.0, 2.2.5, 2.2.4, 2.2.3, 2.2.2, 2.2.1, 2.2.0, 2.1.6, 2.1.5, 2.1.4, 2.1.3, 2.1.2, 2.1.1, 2.1.0, 2.0.9, 2.0.8, 2.0.7, 2.0.6, 2.0.5, 2.0.4, 2.0.3, 2.0.2, 2.0.1, 2.0.0, 1.2.2, 1.2.1, 1.2.0, 1.1.2, 1.1.1, 1.1.0, 1.0.8, 1.0.7, 1.0.6, 1.0.5, 1.0.4, 1.0.3, 1.0.2, 1.0.1, 1.0.0, 0.3.3, 0.3.2, 0.3.1, 0.3.0, 0.2.0
    

    TextVectorization 객체 직렬화 문제

    Keras 2.15.0에서 오류 발생

    Keras 2.15.0에서 TextVectorization 객체 직렬화 문제가 발생합니다.

    Traceback (most recent call last):
      File "C:\DevWork\trvoid\GitHub\ml-study\python-basics\TextVectorization-basics.py", line 110, in <module>
        main(args)
      File "C:\DevWork\trvoid\GitHub\ml-study\python-basics\TextVectorization-basics.py", line 93, in main
        save_text_vectorization(text_vectorization, output_filepath)
      File "C:\DevWork\trvoid\GitHub\ml-study\python-basics\TextVectorization-basics.py", line 32, in save_text_vectorization
        pickle.dump(text_vectorization, f)
      File "C:\DevEnv\tensorflow215\lib\site-packages\tensorflow\python\framework\ops.py", line 314, in __reduce__
        return convert_to_tensor, (self._numpy(),)
      File "C:\DevEnv\tensorflow215\lib\site-packages\tensorflow\python\framework\ops.py", line 362, in _numpy
        raise core._status_to_exception(e) from None  # pylint: disable=protected-access
    tensorflow.python.framework.errors_impl.InvalidArgumentError: Cannot convert a Tensor of dtype resource to a NumPy array.
    

    해결 방법

    Keras 2.15.0에서의 TextVectorization 객체 직렬화 문제는 아래 문서에서 해결 방법을 찾을 수 있습니다.

    Keras 3.4.1에서는 정상 처리됨

    Keras 3.4.1에서는 TextVectorization 객체 직렬화가 정상적으로 처리됩니다.

    정리

    TensorFlow와 함께 설치되는 Keras 버전

    • TensorFlow 2.15.1 => Keras 2.15.0
    • TensorFlow 2.16.1 => Keras 3.4.1

    참고 사항

    • Python 3.12.4를 설치하면 TensorFlow 2.16.1부터 설치 가능
    • TensorFlow 2.16.1에서 Keras 2.15.0을 설치하는 것도 가능

    Written with StackEdit.

    Llama 3.2로 문장 생성 및 챗팅 완성 실습

    Llama 3.2로 문장 생성 및 챗팅 완성 실습 Running Meta Llama on Linux 문서의 내용을 참고하여 Llama 3.2 1B 모델로 다음 두 가지 기능을 실습합니다. 문장 완성 챗팅 ...