Процедуры контроля надежности распознавания ТИМ
Внутренний контроль надежности распознавания ТИМ состоит из трех основных компонентов:
- самоконтроль эксперта
- сверка результатов между экспертами
- сверка первого результата с результатами повторных обращений клиента
Самоконтроль эксперта
В процессе распознавания ТИМ эксперт отслеживает не менее 15 двоичных, 6 четверичных и один 16-ричный случайный параметр. По каждому параметру набирает небольшую статистику, проверяет статистическую оценку на устойчивость. Кроме того, проверяет совокупность результирующих значений параметров на непротиворечивость. Детали организации самоконтроля — наше ноу-хау.
Сверка результатов между экспертами
Сверка между экспертами гарантированно не производится только в случае, если клиент сам выбрал эксперта и попросил его не показывать свои материалы остальным экспертам.
Если клиент заказал дистанционное распознавание ТИМ по классу надежности 98%, сверка между двумя экспертами проводится обязательно.
Класс надежности 98% при дистанционном распознавании достигается за счет независимой работы двух экспертов. При этом результат может быть получен только в случае, если изолированно сформированные версии экспертов совпали при сверке. В качестве примера проведем расчет для случая, когда один эксперт сработал с надежностью 90%, другой – 70%, причем ошибки экспертов независимы и равновероятны.
Вероятность того, что оба эксперта дадут правильную версию, составляет 0,9 * 0,7 = 0,63. Вероятность того, что оба эксперта дадут неправильную версию, составляет (1 - 0,9)(1 - 0,7) = 0,1*0,3 = 0,03. Неправильных версий 15 (так как ТИМ всего 16, и одна версия правильная). Если ошибки независимы и равновероятны, то вероятность совпадения двух ошибочных версий составляет 0,03/15 = 0,002. Следовательно, вероятность совпадения версий двух экспертов (независимо от правильности) составляет 0,63 + 0,002 = 0,632, а вероятность того, что «совпавшая» версия правильная, 0,63/0,632 = 0,9968... Вероятность, что совпавшая версия неправильная, — 0,0032...
В завершение расчета сделаем поправку на то, что распределение ошибок экспертов не совсем равновероятное и не совсем независимое (зависит от persona клиента), — увеличим оценку вероятности ошибки относительно теоретического ожидания с гарантированным запасом, до 2% (то есть, в 6,32 раза).
Уровень корреляции ошибок двух экспертов отслеживается третьим экспертом. Низкий уровень корреляции ошибок обеспечивается следующими условиями:
- Отсутствуют какие-либо правила выделения элементарных признаков. Каждый эксперт выделяет те признаки, которые лучше замечает и которым больше доверяет. Поле отслеживаемых признаков открыто.
- Два ведущих эксперта изначально пользуются разными моделями ТИМ и не обучались методам друг друга.
Контроль надежности посредством сверки результатов между экспертами производится на основе данных о фактической частоте совпадения независимых версий экспертов (назовем ее q). q=(1–p1) (1–p2), где p1и p2– искомые фактические надежности экспертов 1 и 2. Второй необходимый для перерасчета параметр – соотношение p1/p2 — вычисляется по результатам совместного разбора экспертами случаев несовпадения версий. Контроль производится по каждой комбинации классов надежности.
Вышеописанной процедурой контроля надежности мы пользуемся с 2002 г. За это время накопилась статистика по нескольким тысячам позиций, позволяющая достаточно точно оценивать качества отдельных экспертов и групп экспертов. Однако накопленная статистика относится главным образом к тренировочным режимам работы экспертов и не может быть безоговорочно перенесена на режим коммерческого использования.
Сверка первого результата с результатами повторных обращений клиента
Контроль надежности при повторных обращениях клиента учитывает долю клиентов, которым сообщается новый ТИМ при переходе из одного класса надежности в другой. Так, при переходе из 90% в 98% новый ТИМ должен сообщаться не более, чем 8% клиентов. При переходе из класса 30% в класс 98% — не более, чем 68% клиентов.
Связь классов надежности с видами предоставляемых материалов.
Признаки, которыми мы пользуемся при распознавании ТИМ, распределяются по 4-м сенсорным модальностям: кинестетической, визуальной, аудиальной, дигитальной.
Очное распознавание задействует все 4 модальности восприятия параллельно и во взаимосвязи. Такой режим обеспечивает максимальную надежность распознавания.
При дистанционном распознавании практически полностью теряется кинестетическая модальность, остаются три, причем взаимосвязь визуальной модальности с двумя оставшимися разорвана.
- Фотографии – визуальная модальность
- Голос – аудиальная и дигитальная
- Текст – дигитальная.
Чем мультимедийнее материал, предоставленный клиентом, тем выше может быть надежность распознавания ТИМ.
При выборе эксперта учитывайте также и то, что Кривошеев в дистанционном режиме работы полагается в первую очередь на многоуровневый анализ текста или живой речи, Степанов — на ассоциативное тяготение мимики и интонаций голоса, а Балашова изучила и освоила методы обоих.
Возможности внешнего контроля
Процедура контроля надежности экспертов путем сверки их результатов может быть воспроизведена клиентом, заинтересованным в верификации качества наших услуг. Можно выделить два основных вида проверок: скрытая и открытая. У каждого вида свои плюсы и минусы.
Скрытая проверка. Данные от одного человека надо поместить в две заявки. В каждой заявке выбрать эксперта и попросить эксперта не показывать материалы остальным экспертам. Повторить для нескольких человек. Сверить результаты двух экспертов на сходимость и сравнить с заказанным классом надежности по представленной выше формуле.
Наиболее скрытный путь: не выбирать эксперта, а подать две или три заявки на каждого человека, разделенные по модальностям. В одной — только фото, в другой — только телефонное интервью, в третьей — только текст.
Плюсы: эксперты не знают, что их контролируют, поэтому не прилагают особого старания.
Минусы: разделение материалов по модальностям снижает достижимую надежность распознавания ТИМ. Поэтому требуется большая проверочная выборка для сужения доверительного интервала оценки надежности.
Открытая проверка. Вызвать на свою территорию двоих экспертов, разместить их в разных комнатах, проверить на отсутствие средств связи и пропустить через каждого из них одну и ту же группу людей в разном порядке. Затем сверить результаты.
Плюсы: Действия экспертов под контролем, сговор и взаимопомощь исключены. Надежность очного распознавания ТИМ высокая, поэтому достаточно небольшой выборки, чтобы убедиться в высокой сходимости экспертов.
Минусы: Эксперты знают, что их контролируют, поэтому особо стараются не ошибиться и в результате демонстрируют не совсем ту надежность, что обычно (кто-то лучшую, кто-то худшую).
esta.ru