Представьте, что вы строите защиту модели, вкладываете деньги. Первая версия модели давала точность в 80% — на нее вы тратите месяц разработки. Чтобы добиться 90%, вам понадобится три месяца. Важно оценивать результаты работы модели и бизнес-метрики, особенно если мы говорим о ситуации невозврата кредита. Если мы предсказываем, что человек отдаст кредит, а этого не происходит, объем кредита теряется. В ином случае теряется доля процентов. Поэтому важно балансировать. Зная ошибки модели, мы можем умножить их на деньги и сделать так, чтобы бизнес-модель сходилась. Это позволит нам при применении модели машинного обучения выйти в плюс, а не в минус.
Первым критерием качества метрики является accuracy — доля объектов, для которых мы правильно предсказали класс. Или сопряженная ей метрика — доля ошибочных классификаций (error rate).
Матрица ошибок — это метрика производительности классифицирующей модели машинного обучения.
Когда мы получаем данные, то после очистки и предварительной обработки первым делом передаем их в модель и, конечно же, получаем результат в виде вероятностей. Но как мы можем измерить эффективность нашей модели? Именно здесь матрица ошибок и оказывается в центре внимания.
Матрица ошибок — это показатель успешности классификации, где классов два или более. Это таблица с 4 различными комбинациями сочетаний прогнозируемых и фактических значений.