[NLP] BLEU vs SacreBLEU
BLEU (BiLingual Evaluation Understudy score)는 학습된 모델의 생성 sequence 결과가 실제 정답과 얼마 유사한지 측정하는 metric으로, 기계 번역 task에서 주로 사용된다. 하지만 요즘은 SacreBLEU를 사용하는 것이 표준으로 자리 잡은 상태, 그 둘은 어떻게 다를까? $$ BLEU = \frac{맞춘 \ 토큰의 \ 수} {모델이 \ 생성한 \ 토큰의 \ 수} $$ Transformer 기반의 언어 모델을 활용한 연구가 대다수인 지금, BLEU를 사용하기에 존재하는 가장 큰 문제점은 모델마다 토크나이저가 다르다는 것이다. 어떤 토크나이저를 사용하여 BLEU를 측정하느냐에 따라 결과값이 바뀔 수 있는 만큼 BLEU 값에 대한 신뢰도가 하락하게되는 것은 자연스..
자연어처리/연구
2023. 3. 15. 20:25
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- gpu
- kill
- tensor
- nlp
- tqdm
- PYTHON
- multiprocessing
- 명령어
- linux
- progress bar
- 포트포워딩
- 시나리오
- 알스트로메리아
- metric
- list
- pytorch
- dockerfile
- Docker
- 중복 제거
- vsCode
- uninstall
- killall
- Git
- 개발
- Process
- 자연어처리
- PIP
- install
- Jupyter Notebook
- 자료형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함