Оцінка BLEU — це число від нуля до одиниці, яке вимірює подібність машинно перекладеного тексту до набору високоякісних довідкових перекладів.
Він заснований на ідеї, що чим ближче прогнозоване речення до створеного людиною цільового речення, тим воно краще. Bleu Оцінки від 0 до 1. Оцінка 0,6 або 0,7 вважається найкращим, чого ви можете досягти.
У сфері оцінки НЛП оцінки BLEU і ROUGE є такими загальновживані показники для оцінки якості машинних перекладів і резюме, відповідно. У той час як оцінка BLEU в основному використовується для завдань машинного перекладу, оцінка ROUGE використовується для завдань узагальнення тексту.
BLEU = стислість_штрафу * exp(sum(w_n * log(p_n))) w_n — вага, застосована до оцінки точності в n-грам. Часто встановлюється вага 1/n, де n означає кількість використаних розмірів у n-грамах. p_n представляє рейтинг точності для розміру n-грам.
Бали BLEU-4 (%) згенерованих перекладів за об’єднаним чотирма тестами набори щодо довжини вихідних речень. Цифри на осі X малюнка означають речення, довші за відповідну довжину, наприклад, 40 для вихідних речень із > 40 слів.
Як зазначено вище, BLEU Score є оціночна метрика для завдань машинного перекладу. Він обчислюється шляхом порівняння n-грамів речень, перекладених машиною, з n-грамами речень, перекладених людиною. Зазвичай спостерігається, що бал BLEU зменшується зі збільшенням довжини речення.