기본 콘텐츠로 건너뛰기

IMDb 데이터셋의 label 열이 DistilBERT 모델 forward() 함수의 labels 인자로 전달되는 과정

IMDb 데이터셋의 label 열이 DistilBERT 모델 forward() 함수의 labels 인자로 전달되는 과정

1. 개요

허깅 페이스의 Transformers 라이브러리를 사용하여 모델을 훈련할 때 데이터셋의 label 항목이 어떤 과정을 거쳐 모델의 forward(..., labels, ...) 메소드로 전달되는지 설명합니다.

  • IMDb 데이터셋에서 추출한 한 개의 데이터 예시

    {
        "text": "I love sci-fi...",
        "label": 0
    }
    
  • DistilBertForSequenceClassification 클래스의 forward() 메소드

    transformers/models/distilbert/modeling_distilbert.py

    def forward(
        ...,
        labels: Optional[torch.LongTensor] = None,
        ...
    )-> Union[SequenceClassifierOutput, Tuple[torch.Tensor, ...]]:
        ...
    

이 문서에서는 IMDb 데이터셋과 DistilBertForSequenceClassification 모델을 사용하여 설명하지만 특정 데이터셋과 모델에만 해당하는 것은 아닙니다.

이 문서에서 등장하는 주요 API는 다음과 같습니다.

  • datasets.default_data_collator
  • class datasets.Dataset
  • class datasets.DatasetDict
  • class transformers.DataCollatorWithPadding
  • class transformers.DistilBertForSequenceClassification
  • class transformers.Trainer

2. 트레이너 (Trainer)

2.1. Trainer.__init()__

  • 데이터 콜레이터를 인자로 받아들이는 Trainer 객체 생성

    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_imdb["train"],
        eval_dataset=tokenized_imdb["test"],
        processing_class=tokenizer,
        data_collator=data_collator,
        compute_metrics=compute_metrics,
    )
    
  • Trainer 클래스의 생성자에서 사용자 지정 데이터 콜레이터를 쓸 것인지, 아니면 기본 데이터 콜레이터를 쓸 것인지 결정

    transformers/trainer.py

    class Trainer:
        def __init__(self, ..., data_collator, ...):
            ...
            default_collator = (
                DataCollatorWithPadding(processing_class)
                if processing_class is not None
                and isinstance(processing_class, (PreTrainedTokenizerBase, SequenceFeatureExtractor))
                else default_data_collator
            )
            self.data_collator = data_collator if data_collator is not None else default_collator
            ...
    

2.2. Trainer.train()

  • 훈련 과정에서 배치 데이터를 얻기 위하여 __init__() 메소드 내에서 정했던 데이터 콜레이터를 이용

    transformers/trainer.py

    class Trainer:
        ...
        def train(self, ...):
            ...
            find_executable_batch_size(self._inner_training_loop, ...)
            ...
        
        def _inner_training_loop(self, batch_size=None, ...):
            ...
            train_dataloader = self.get_train_dataloader()
            ...
            for epoch in range(epochs_trained, num_train_epochs):
                epoch_dataloader = train_dataloader
                ...
                epoch_iterator = iter(epoch_dataloader)
                ...
                for _ in range(total_updates):
                    batch_samples, num_items_in_batch = self.get_batch_samples(epoch_iterator, num_batches, args.device)
                    ...
                    for i, inputs in enumerate(batch_samples):
                        ...
                        tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
                        ...
            ...
        
        def get_train_dataloader(self) -> DataLoader:
            ...
            data_collator = self.data_collator
            ...
            
        def training_step(self, model, inputs, ...) -> torch.Tensor:
            ...
            loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
            ...
    
        def compute_loss(self, model, inputs, ...)
            ...
            outputs = model(**inputs)
            ...
            return (loss, outputs) if return_outputs else loss
    

3. 데이터 콜레이터 (Data Collator)

데이터 콜레이터는 데이터셋으로부터 배치 크기의 데이터를 추출하여 반환하는 역할을 수행합니다. 트레이너는 훈련 과정에서 데이터를 공급받기 위하여 응용 프로그램에서 직접 생성하여 지정한 데이터 콜레이터를 사용하거나, 그렇지 않으면 기본 데이터 콜레이터를 사용합니다.

Transformers 라이브러리는 다음 세 종류의 기본 데이터 콜레이터를 구현하고 있습니다.

  • PyTorch - torch_default_data_collator
  • TensorFlow - tf_default_data_collator
  • NumPy - numpy_default_data_collator

3.1. 데이터 콜레이터를 직접 생성하여 지정하는 경우

  • DataCollatorWithPadding 객체를 생성하여 Trainer 객체 생성 시 인자로 전달

    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    
    trainer = Trainer(
        ...
        data_collator=data_collator,
        ...
    )
    
    trainer.train()
    
  • DataCollatorWithPadding 객체 호출 시 label 항목을 labels로 변경

    transformers/data/data_collator.py

    class DataCollatorWithPadding:
        def __call__(self, ...):
            batch = pad_without_fast_tokenizer_warning(...)
            if "label" in batch:
                batch["labels"] = batch["label"]
    	        del batch["label"]
            if "label_ids" in batch:
                batch["labels"] = batch["label_ids"]
                del batch["label_ids"]
    	    return batch
    

3.2. 데이터 콜레이터를 지정하지 않는 경우

  • Trainer 객체 생성 시 data_collator 파라미터 지정하지 않음

    trainer = Trainer(
        ...
        data_collator=None,
        ...
    )
    
  • PyTorch의 경우 torch_default_data_collator() 함수 호출 시 label 항목을 labels로 변경

    def torch_default_data_collator():
        ...
        if "label" in ...:
    	    ...
            batch["labels"] = torch.tensor([f["label"] for f in features], dtype=dtype)
    

4. 정리

  • 데이터 콜레이터가 데이터셋의 label 항목을 labels 항목으로 변경하고 트레이너가 labels 항목을 모델의 forward(..., labels, ...) 메소드 인자로 전달합니다.

Written with StackEdit.

댓글

이 블로그의 인기 게시물

Intel MKL 예제를 Microsoft Visual C++로 빌드하기

Intel MKL 예제를 Microsoft Visual C++로 빌드하기 인텔 프로세서 시스템에서 아래의 영역에 해당하는 수학 계산을 빠르게 수행하고자 한다면 Intel MKL 라이브러리를 사용할 수 있습니다. Linear Algebra Fast Fourier Transforms (FFT) Vector Statistics & Data Fitting Vector Math & Miscellaneous Solvers 이 문서는 Intel MKL 이 제공하는 예제 파일을 Microsoft Visual C++ 로 컴파일하고 링크하여 실행 파일을 만드는 과정을 소개합니다. 빌드 환경 다음은 이 문서를 작성하는 과정에서 Intel MKL 예제를 빌드하기 위하여 사용한 환경입니다. 시스템 운영체제: Windows 10 (64비트) 프로세서: Intel Core i7 설치 제품 IDE: Microsoft Visual Studio Community 2019 (version 16) 라이브러리: Intel Math Kernel Library 2019 Update 5 환경 변수 명령 프롬프트 창을 엽니다. 아래 스크립트를 실행하여 환경 변수 INCLUDE , LIB , 그리고 PATH 를 설정합니다. @echo off set CPRO_PATH=C:\Program Files (x86)\IntelSWTools\compilers_and_libraries\windows set MKLROOT=%CPRO_PATH%\mkl set REDIST=%CPRO_PATH%\redist set INCLUDE=%MKLROOT%\include;%INCLUDE% set LIB=%MKLROOT%\lib\intel64;%LIB% set PATH=%REDIST%\intel64\mkl;%PATH% REM for OpenMP intel thread set LIB=%CPRO_PATH%\compiler\lib...

Llama 3.2로 문장 생성 및 챗팅 완성 실습

Llama 3.2로 문장 생성 및 챗팅 완성 실습 Running Meta Llama on Linux 문서의 내용을 참고하여 Llama 3.2 1B 모델로 다음 두 가지 기능을 실습합니다. 문장 완성 챗팅 완성 실습 환경 Ubuntu 20.04.6 LTS Python 3.12.7 Llama3.2-1B, Llama3.2-1B-Instruct rustc 1.83.0 NVIDIA RTX 4090 24GB 프로그램 준비 실습에서 사용할 wget , md5sum 설치 sudo apt-get install wget sudo apt-get install md5sum NVIDIA GPU 설치 여부 확인 nvidia-smi 실습 디렉토리 만들기 mkdir llama3-demo cd llama3-demo git clone https://github.com/meta-llama/llama3.git Python 3.10 이상의 버전으로 가상환경 만들고 활성화 python -m venv llama-venv . llama-venv/bin/activate Rust 컴파일러 설치 How To Install Rust on Ubuntu 20.04 문서를 참고하여 Rust 컴파일러를 설치합니다. curl --proto '=https' --tlsv1.3 https://sh.rustup.rs -sSf | sh 위 명령을 실행하면 아래와 같이 세 가지 선택 옵션이 나타나는데 그냥 엔터를 쳐서 1번 옵션으로 진행합니다. ... 1) Proceed with installation (default) 2) Customize installation 3) Cancel installation 아래 명령을 실행하여 현재 쉘에 반영하고 설치된 컴파일러 버전을 확인합니다. source $HOME/.cargo/env rustc --version 의존 라이브러리 설치 pip install ...