• Главная »
  • Социальные сети


Анализ пользовательского контента для выяления данных, не отвечающих политике ресурса

Все большее количество сайтов представляют собой тематические платфомы для коммуникации людей: сайты по поиску репетиторов, краткосрочной аренде жилья, размещению частных объявлений. При этом существуют ограничения, которые владельцы порталов хотели бы наложить на пользователей сервисов: например, отсутствие контактных данных в личных сообщениях, если схема монетизации сервиса предусматривает оплату услуг через сайт, а не с рук на руки.

Известно, что довольно значительное количество пользователей пытаются обойти правила, установленные политикой порталов и обмениваются в личных сообщениях контактами для того, чтобы продолжить общение по другим каналам.

Даже передача контактных данных в неявном виде может быть распознана

Использование шаблонов и регулярных выражений не решает данной задачи, так как заранее довольно затруднительно предположить все возможные варианты некорректных сообщений, а пользователи, зачастую, видоизменяют информацию таким образом, чтобы не вызвать подозрений у администрации порталов.

Решение данной задачи возможно при помощи методов машинного обучения и анализа естественного языка. Если рассматривать задачу блокирования передачи личных данных, то после обучения системой будут выделяться сообщения, которые содержат или потенциально содержат:

  • телефонные номера,
  • электронную почту,
  • ссылки на внешние ресурсы (в том числе на аккаунты в социальных сетях),
  • Skype-аккаунты и т.д.

Кроме того могут быть детектированы сообщения с информацией об условиях сделки и другими нежелательными данными.

Отличие систем, использующих машинное обучение, от систем, основанных на шаблоннах, заключается в том, что даже видоизменненная информация будет распознана. Зачастую пободные системы могут обнаружить больше некорректых сообщений, нежели модераторы при ручном просмотре.

Категории: Социальные сети, Анализ контента, Обработка текста