티스토리 뷰

자연어처리/연구

[NLP] BLEU vs SacreBLEU

나선은하 2023. 3. 15. 20:25

BLEU (BiLingual Evaluation Understudy score)는 학습된 모델의 생성 sequence 결과가 실제 정답과 얼마 유사한지 측정하는 metric으로, 기계 번역 task에서 주로 사용된다.

하지만 요즘은 SacreBLEU를 사용하는 것이 표준으로 자리 잡은 상태, 그 둘은 어떻게 다를까?

 

$$ BLEU =  \frac{맞춘 \ 토큰의 \ 수} {모델이 \ 생성한 \ 토큰의 \ 수} $$

 

Transformer 기반의 언어 모델을 활용한 연구가 대다수인 지금, BLEU를 사용하기에 존재하는 가장 큰 문제점은 모델마다 토크나이저가 다르다는 것이다.

어떤 토크나이저를 사용하여 BLEU를 측정하느냐에 따라 결과값이 바뀔 수 있는 만큼 BLEU 값에 대한 신뢰도가 하락하게되는 것은 자연스러운 현상이 되었다.

이를 해결하고자 등장한 것이 sacreBLEU (git) 이다.

 

이들의 해결법은 간단하다.

구현체와 토크나이저를 표준화하여 배포하는 것.

sacreBLEU를 사용한 모든 실험 결과는 동등한 환경에서 결과 수치가 측정되었다고 볼 수 있으니 실험 결과의 신뢰성 확보를 위해 사용하지 않을 이유가 없다.

영어 뿐만 아니라 한국어, 중국어, 일본어에 대해서도 사용 가능하다는 점 또한 훌륭하다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함