56

Автоматическая модерация изображений

Январь, 2020 год.

Платформа для автоматического анализа и обработки контента «Робби».

alt

Какую проблему решали

Каждый день пользователи загружают в социальную сеть «Одноклассники» более 40 млн изображений.

Некоторые картинки и фотографии могут содержать тексты негативного характера: оскорбления, спам, рекламу, нецензурные выражения и т.д.
Изображения проверялись командой модераторов вручную, что приводило к большим затратам на персонал и задержке в обнаружении нежелательного контента.
Решение проблемы
Команда «Антиспам» социальной сети «Одноклассники» разработала «Робби» – платформу для автоматического анализа и обработки контент.
«Робби» анализирует новые изображения и распознает основные типы негативного контента на стадии загрузки без участия человека. На ручную обработку отправляются только пограничные случаи, что позволяет принимать максимально точные решения.
Технология внедрена для модерации изображений в других сервисах Mail.ru Group: в Юла – для обнаружения контактных данных на фото (телефон, url-адреса, ники Инстаграма), в Ситимобил – для распознавания госномера автомобиля, в MyTarget – для дедупликация рекламных баннеров с одинаковым текстом.
Применяемые технологии

«Робби» – автоматизированная платформа на базе нейросетей и технологии big data.

Платформа приступает к анализу изображений сразу после их загрузки в «Одноклассники». Алгоритм PixelLink ищет картинки с текстом. Алгоритм CRNN определяет местоположение текста на изображении и распознает его. Модель использует технологию оптического распознавания текста OCR (optical character recognition).

Алгоритм Deep Averaging Network разделяет распознанный текст на различные классы. Негативные (реклама, спам, мошенничество и т.д.) удаляются автоматически.

Бизнес-процесс

До проекта:

  • Поиск негативных изображений вручную.
  • Большой штат модераторов.
  • Длительный процесс удаления негативного контента.

После проекта:

  • Автоматический поиск изображений с текстом.
  • Распознавание текста на картинке.
  • Категоризация контента по степени его негативности.
  • Мгновенное удаление нежелательного контента.

Результаты

Команда проекта

Вадим Гуров
Руководитель проектов
Владислав Долганов
Руководитель группы разработки
Евгений Журин
Ведущий разработчик
Михаил Марюфич
Разработчик
Алексей Сенников
Руководитель проектов
Руслан Торобаев
Разработчик