Исследуя попытку Википедии использовать искусственный интеллект для борьбы с травлей

Для решения проблемы травли в Википедии понадобится целый ряд тактик.

28.2.17

Несмотря на благородные цели, Википедия скандально известна агрессией своих редакторов. Теперь исследования технического инкубатора Jigsaw и Фонда Викимедиа изучают как искусственный интеллект может поспособствовать остановке троллей.

Исследовательский проект, который называется Detox, начался в прошлом году и использовал методы машинного обучения для жалоб на комментарии, содержащие личные выпады. Исследователи рассмотрели комментарии в Википедии, накопившиеся за 14 лет, на предмет наличия закономерностей в жестоком поведении. Detox является частью проекта Jigsaw, носящего название Conversation AI, целью которого является создание общедоступных инструментов искусственного интеллекта (ИИ) для Интернет-форумов и платформ социальных сетей, которые можно использовать в борьбе с онлайн-травлей.

Алгоритм мог определять вероятность того, что данный комментарий является личным выпадом, с такой же надёжностью, как и команда из трёх модераторов-людей

Опубликованная на прошлой неделе статья о сервере препринтов arXiv под авторством команды даёт возможность впервые увидеть, как Викимедиа использует ИИ для изучения травли на платформе. Она предполагает, что жестокие комментарии не являются епархией какой-то отдельной группы троллей и что для борьбы с ними в Википедии понадобятся разнообразные тактики.

«Это не новаторское исследование машинного обучения, – заявил Эллери Вулчин, специалист по обработке данных Викимедиа и исследователь в Detox, во время телефонного интервью. – Главное здесь – создать нечто достаточно хорошо известное, но позволяющее нам генерировать эту шкалу данных, чтобы суметь лучше понять вопрос».

Цель Jigsaw, технического инкубатора Alphabet, начавшегося как Google Ideas, – это, ни много ни мало, борьба с угрозами правам человека и глобальной безопасности. Среди его проектов – карта с указанием источников и мишеней DDoS-атак по всему миру в реальном времени, а также антифишинговое расширение для Chrome, изначально разработанное для защиты сирийских активистов от хакеров.

Для того чтобы заставить свой алгоритм распознавать личные выпады, команде Detox пришлось нацелить его на надёжный набор данных. Она начала со 100 000 комментариев на странице обсуждений в Википедии, где редакторы обсуждают свои разногласия. Затем 4 000 краудворкеров оценили комментарии на предмет личных выпадов. Каждый комментарий проверили 10 разных людей. Результатом стал один из крупнейших в истории аннотированных наборов данных, рассматривающих онлайн-жестокость. Он доступен на Figshare, а их код есть на Github, чтобы его можно было использовать на других платформах, помимо Википедии.

После нацеливания на набор данных алгоритм мог определять вероятность того, что данный комментарий является личным выпадом, с такой же надёжностью, как и команда из трёх модераторов-людей.

Затем команда Detox пропустила через алгоритм 63 миллиона комментариев из англоязычной Википедии, выложенных с 2001 по 2015 год и проанализировала результаты на предмет закономерностей в жестоких комментариях.

«Это, по сути, моделирование маркирования каждого комментария в истории Википедии тремя людьми, – заявил Вулчин. – Это дорого и требует много времени, но мы можем сделать это с данной моделью за разумный срок. Это открывает многочисленные возможности для анализа и для получения лучшего понимания вопроса».

Результаты анализа удивили Вулчина, признался он. Хотя вероятность того, что комментарии от незарегистрированных пользователей содержат выпад, была в шесть раз выше, более половины всех жестоких комментариев было написано зарегистрированными пользователями, поддающимися идентификации.

Жестокость исходила не от изолированной группы троллей

Более того, жестокость исходила не от изолированной группы троллей. Почти 80 процентов всех жестоких комментариев были написаны 9000 с лишним «пользователей низкой токсичности» – людей, написавших менее 5 жестоких комментариев за год. С другой стороны, почти 10 процентов всех выпадов на платформе были сделаны всего 34 высокотоксичными пользователями.

«Это показывает, что эта проблема может быть решена с помощью ряда разнообразных тактик, – заявил Вулчин, – а это следует принять к сведению».

Исследователи воспользуются этими данными, чтобы рассмотреть, как выпады воздействуют на работу редакторов, всё ещё являющееся проблемой для Википедии. Они также рассматривают способы, которыми машинное обучение может поспособствовать большей дружелюбности дискуссий на Википедии. К примеру, они заявляют, что ИИ можно использовать для жалобы на комментарий для модерации человеком или создания досок объявлений, дающего модераторам возможность лучше посмотреть на происходящие дискуссии. «Я и сам отношусь к использованию методов машинного обучения для принятия автоматических решений с большим подозрением, – сказал Вулчин. – К нему так относятся все. Это на самом деле не обсуждается. Но вопрос вот в чём: можно ли использовать алгоритм, чтобы способствовать сортировке инцидентов? Вот о чём мы говорили».

Среди недостатков – то, что, как только люди узнают, что их дискуссию отслеживает компьютер, они, возможно, попытаются одурачить алгоритм. Троллям с 4chan недавно удалось обойти алгоритмический фильтр языка ненависти, заменяя оскорбления на расовой почве названиями товаров Google.

«Мы не знаем, что случится, когда люди вступают в противоборство с алгоритмом, – сказал он. – Тут проблема становится совершенно другой, когда нужно постоянно отслеживать, является ли ещё то, что люди считают личными выпадами, тем же, что считает личными выпадами модель».

Но к этому вызову команда готова.

«Тяжело видеть те слова, которые людям высказывают на Википедии», – заявил Вулчин.

Ещё читать на Motherboard

Tagged:Internetnaukaвикипедия