Це зводиться до
(як зазвичай). CV має тенденцію бути менш упередженим, але K-кратне CV має досить велику дисперсію. З іншого боку, початкове завантаження має тенденцію різко зменшувати дисперсію, але дає більш упереджені результати (вони, як правило, песимістичні).9 березня 2024 р.
Таким чином, перехресна перевірка розділяє доступний набір даних для створення кількох наборів даних, а метод Bootstrapping використовує вихідний набір даних для створення кількох наборів даних після повторної вибірки із заміною. Бутстрапінг не такий потужний, як перехресна перевірка, коли він використовується для перевірки моделі.
Повторна вибірка використовується для розділення навчальних і тестових даних. Навчання/тестування розділяє дані на навчальні та тестові набори. Він навчає модель за допомогою навчальних даних і оцінює модель за допомогою тестових даних. Перехресна перевірка K-folds розбиває дані на k підмножин і використовує їх для створення кількох наборів навчання/тесту.
За допомогою перехресної перевірки замість того, щоб створювати єдиний «зріз», який призначає всі записи до наборів для навчання або тестування, ми натомість неодноразово ділимо спостереження на менші групи. У k-кратній перехресній перевірці k-значення стосується кількості груп або «згорток», які використовуватимуться для цього процесу.
У цьому посібнику показано, як K-Fold Cross-Validation є потужним інструментом для оцінки моделей машинного навчання. Це краще, ніж простий Train-Test Split, оскільки він перевіряє модель на різних частинах ваших даних, допомагаючи вам бути впевненими, що вона також добре працюватиме на невидимих даних.
Зокрема, корисний bootstrap коли немає аналітичної форми або асимптотичної теорії (наприклад, застосовної центральної граничної теореми), щоб допомогти оцінити розподіл статистичних даних, що цікавлять. Це пояснюється тим, що методи початкового завантаження можна застосовувати до більшості випадкових величин, наприклад, співвідношення дисперсії та середнього значення.