Идентификация пользователей различных сетей

Одной из фундаментальных проблем при использовании социальной информации о пользователе является её фрагментированность среди множества различных онлайновых социальных сетей. Каждый год появляется 448 множество как универсальных, так и нишевых социальных сервисов, и для активных пользователей Интернет типично иметь несколько профилей в различных социальных сетях.

Несмотря на то, что существуют попытки по обеспечению единого способа взаимодействия между различными социальными платформами (например, OpenSocial), они не получили широкого применения, а новые социальные сервисы продолжают появляться.

Интересно
Идентификация пользователя в различных социальных сетях позволяет получить более полную картину о социальном поведении данного пользователя в сети Интернет. Обнаружение аккаунтов, принадлежащих одному человеку, в нескольких социальных сетях, позволяет получить более полный социальный граф, что может быть полезно во многих задачах, таких как информационный поиск, интернет-реклама, рекомендательные системы и т.д.

Поскольку поиск аккаунтов пользователя в различных сетях в общем случае требует наличия актуальных данных обо всех пользователях данных сетей, целесообразно ограничить пространство поиска ближайшими соседями какого-либо пользователя, аккаунты которого в исследуемых сетях известны.

Таким образом, задача идентификации пользователей в различных социальных сетях в локальной перспективе подразумевает сопоставление аккаунтов пользователей в рамках списков контактов некоторого центрального пользователя в различных социальных сетях.

Такая задача часто возникает при работе с контактами пользователей в социальных мета-сервисах, которые, в частности, могут служить для объединения новостных потоков в поддерживаемых социальных сервисах или предоставления единой системы обмена сообщениями. Подобная задача возникает также при использовании функции автоматического объединения контактов из различных источников (телефонная книга, социальные сети, мессенджеры), распространённой в современных мобильных устройствах.

В 2011 г. РАН был разработан метод решения задачи идентификации пользователей различных социальных сетей, которая сводится к поиску различных вариантов виртуальных личностей одного и того же пользователя в нескольких социальных сетях.

На основе графической вероятностной модели условного случайного поля была разработана оригинальная модель, основанная на похожести виртуальных личностей пользователей по атрибутам их профилей и связям с другими пользователями.

Метод использует социальные связи обеих рассматриваемых социальных сетей путем сравнения оригинальных списков контактов, естественным образом комбинируя их с информацией атрибутов профилей, благодаря чему лишен многих недостатков существующих методов идентификации пользователей.

Метод был протестирован на данных из социальных сетей Facebook и Twitter. 16 центральных пользователей, имеющих профиль в обеих сетях, предоставили доступ к своим эго-сетям, а также указали пары аккаунтов, принадлежащих одному и тому же пользователю. Для всех участников эксперимента были загружены профили их друзей (вместе со связями между ними), а также друзей их друзей.

В Twitter профиль загружался только при наличии между пользователями взаимных связей следования для поддержания семантики связей дружбы, характерных для Facebook. Суммарное число профилей в Twitter и Facebook 398 и 977, а число связей 108 и 641 соответственно.

Для расчёта показателей качества применяется кросс-валидация с разбиением исходных данных на 3 непересекающихся блока. В качестве входных данных используется пара эго-сетей в Facebook и Twitter какого-либо из центральных пользователей. Для сравнения был выбран базовый алгоритм, основанный на расчёте похожести атрибутов профилей пользователей без учёта связей между пользователями.

Нет времени писать работу?
Обратись к профи-репетиторам
"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)