TL;DR — Эта предвзятость исходит из данных. А данные — это то, что мы можем изменить. И изменение данных не является непреодолимым. Поэтому мы должны диверсифицировать наши наборы данных и исчерпывающе измерять и сообщать об эффективности для каждого класса.

Вот простой факт: мир знал об алгоритмической предвзятости очень давно. Вы можете себе представить, как будет выглядеть очередь после вирусного взрыва ChatGPT?

Менее известный факт: алгоритмы не могут думать. Я покажу несколько заголовков известных медиакомпаний.

«Почему алгоритмы могут быть расистскими и сексистскими»



Исследователи находят расовую предвзятость в больничном алгоритме



Это ни в коем случае не исчерпывающий список. Но это поднимает серьезные вопросы о научной коммуникации, поскольку она применяется к алгоритмической предвзятости. Алгоритмы могут иметь предвзятые результаты, поскольку они менее ценны и менее точны для определенных групп. Эти статьи, безусловно, являются полезными ресурсами, но эти заголовки не подтверждаются их содержанием.

Алгоритмы могут иметь абсолютно необъективные обучающие данные — при отсутствии разнообразия в обучающих выборках. Если у вас есть только одна оттерхаунд в ваших обучающих данных, в то время как у вас есть сотни экземпляров каждого из золотистых ретриверов и пуделей, ваша модель, безусловно, будет работать хуже в этом классе, называемом классом меньшинства. Это может привести к созданию предвзятой системы, поскольку в системе есть предвзятый компонент. Но мало оснований утверждать, что любой алгоритм сам по себе содержит предвзятость.

Представьте, если бы вы когда-либо обучали алгоритм только детектору рукописных букв. От A до Z. Что должно произойти, когда вы получаете «Э» в качестве ввода или даже «6»? Это было бы неадекватной обработкой входных данных вне домена. Будет ли он выводить E? Что-то другое? Мы не знаем, но наша система должна дать ответ, мы просто знаем, что этот ответ следует игнорировать. Мы можем сказать, что эта система необъективна, потому что она дает худшую точность для определенного алфавита. Но откуда взялась предвзятость?

Мы не можем «изменить алгоритм», чтобы добиться большей точности для кириллицы или арабских цифр, мы должны изменить данные и использовать объяснимый алгоритм для глубокого исследования его работы в различных условиях.

Вот что меня интересует (в виде проверяемой гипотезы): снимает ли персонификация этих алгоритмов вину с создателей этих алгоритмов? Чтобы количественно оценить степень персонификации, мы могли бы измерить, в какой степени по шкале респонденты опроса указали на согласие с утверждением «Алгоритмы содержат предвзятость» и «Данные содержат предвзятость». И, возможно, мы можем соотнести эти ответы с тем, что «создатели моделей должны обеспечить, чтобы все были представлены в обучающей выборке» и «создатели должны раскрывать распределение и источник обучающих данных и производительность по каждому классу».

Когда я думаю абстрактно, мне интересно, так ли уж мы отличаемся от авторов конституции. Разве мы не хотим закодировать наши ценности в любой создаваемой нами системе? … И куда бы я ни пошел, меня преследуют два неизбежных вопроса: как нам перейти от мира, в котором мы живем, к миру, который мы с гордостью можем сказать, что построили? Разве то, как мы используем ИИ в нашей сегодняшней жизни, не неразрывно связано с тем самым будущим, которое мы хотим построить?

Я говорю «слушайте экспертов», и есть гораздо больше людей, подходящих для этого звания, чем я. Вот чрезвычайно короткий список ресурсов, которые я лично читал и за которые ручаюсь, будучи студентом-магистром НЛП. Это отправные точки для дальнейших исследований.







Было бы сложно, если не невозможно, каталогизировать все способы исправления каждого типа предвзятости в системах принятия решений. Вышеуказанные ресурсы — действительно хорошие места для начала.

Я хотел бы рассказать о том, как, в частности, оценивать результаты по классу меньшинства. И выявить другие стратегии интерпретируемости и объяснимости. И многое другое.

Но остается затруднительное положение: может быть, миру лучше быть осторожным с ИИ. Возможно, нюансы объяснимого ИИ подождут до завтра. Действительно ли альтернатива предпочтительнее, если дела идут не так хорошо, как мы надеемся?