В сложной аналитике нужно быть не только постановщиком задачи, но зачастую и разработчиком

Если посмотреть на изменение структуры решаемых с помощью ИТ задач, нетрудно заметить, что в этом спектре неизменно растет доля аналитических задач, смысл которых можно в самом общем виде определить таким образом: получение на основе некой исходной фактической информации качественно новых знаний, которые помогают оптимизировать или даже коренным образом улучшить процесс принятия решений. При этом расширение сферы применения аналитических методов идет, как обычно, одновременно по разным направлениям. С одной стороны, аналитика применяется для решения все более сложных и ответственных задач, а с другой — аналитические средства становятся доступными и необходимыми не только для «элитных» потребителей, но и для массового рынка.

Одним из примеров применения бизнес-аналитики в относительно новых сферах и ее выхода на массовый уровень является проект СПАРК, уже более десяти лет развиваемый российским информационным агентством «Интерфакс» и получивший очередной толчок в виде совместного с фирмой «1С» проекта «1Спарк-Риски» (соглашение о сотрудничестве было подписано в июне на Петербургском международном экономическом форуме). О том, как современная аналитика, в том числе методы больших данных, могут применяться для повышения эффективности и надежности экономических отношений участников рынка, обозревателю PC Week Андрею Колесову рассказал генеральный директор службы финансовой и экономической информации Международной информационной группы «Интерфакс» Сергей Яковлев.

PC Week: Как бы вы охарактеризовали смысл задач бизнес-аналитики и в чем заключается специфика Big Data?

Сергей Яковлев: Задача заключается в том, чтобы извлечь новые полезные знания из постоянно растущего объема информации, которая поступает из самых разных источников. Ежегодно объем сведений о бизнесе увеличивается на 50-70%, это постоянно расширяющийся вал структурированных и неструктурированных данных. После очистки от информационного шума из них можно и нужно извлекать знания.

Чтобы решить эту задачу, приходится двигаться сразу по нескольким направлениям. Во-первых, внедрять более эффективные технологии поиска, сбора и мониторинга, охватывающие весь массив данных. Во-вторых, использовать ETL-технологии для очистки и анализа этих данных. В-третьих, инвестировать в повышение качества данных и вручную дособирать недостающие для полноты картины элементы. Наконец, последняя и, пожалуй, самая непростая задача — идентифицировать данные, сводя неструктурированную информацию со структурированной, что в дальнейшем позволит найти нужные взаимосвязи и реально обогатить наши данные.

Получается, что нам необходимо извлечь из собранных данных крупицы нужной нам информации на фоне большого шума. Например, любые сигналы о деятельности конкретной компании, которые позволяют нам распознавать компании-однодневки и реально действующие предприятия. При этом нужно решать типичные для любой сложной задачи проблемы — осваивать новые технологии, нанимать хороших программистов, математиков, лингвистов, а с этим всегда непросто. И, конечно, надо иметь компетенции в прикладной области, понимать, что требуется нашим клиентам, чтобы тратить силы на извлечение тех крупиц информации, которые реально нужны и помогают в принятии ими решений.

PC Week: В чем суть задач, решаемых с помощью системы СПАРК?

С. Я.: Российская экономика всегда была зоной высоких рисков, а в последнее время все больше этих рисков из теории переходят в практику: от обвального падения цен на нефть до резкого роста шансов получить налоговые доначисления из-за присутствия в цепочке НДС фирмы-однодневки. Задача нашей системы — оценивать все виды рисков при работе с контрагентами. Конкретная организация должна понимать: при работе с фирмой-однодневкой есть очень высокая вероятность получить штраф от налоговой службы, которая может не признать платежи по контракту как расходы.

Но штрафа можно избежать, если компания покажет, что ее связь с фирмой-однодневкой была непреднамеренной. Более того, что вы не просто не знали о том, что ваш контрагент является «нехорошим» партнером, но и предпринимали шаги, чтобы убедиться в его благонадежности. Но если посмотреть арбитражную практику, то мы увидим, что доказать непреднамеренность связей с фирмами-однодневками налогоплательщикам в российских судах чрезвычайно трудно. Суть нашего сервиса заключается в том, что мы даем бизнесу не только инструмент, который позволяет выявить подозрительных партнеров, но и возможность документально доказать в суде, что проводилась проверка контрагента на предмет его добросовестности. И если определить уровень добросовестности всегда можно только с определенной вероятностью, то иметь для суда доказательства вашей непреднамеренности можно практически на сто процентов.

PC Week: Давайте для простоты будем говорить о самом частом случае недобросовестности — о фирмах-однодневках. Разве это так сложно — выявить типовой набор признаков и определять их в автоматическом режиме?

С. Я.: Тут ситуация в стиле «пушка и броня» или, точнее, «вирусы и лекарства». Мы находим лекарство против вируса, но вирус видоизменяется и нужно искать новое лекарство.

«Однодневки» за время массированной борьбы с ними научились мимикрировать и прятать свою сущность. Признаки, позволяющие ранее понять, что перед вами «однодневка», — массовый адрес регистрации, один директор на много компаний, отсутствие отчетности, маленький срок на рынке, уже не являются определяющими. Сегодня «однодневка» может иметь индивидуального директора, созданный с помощью конструктора сайт. Она даже может сдавать отчетность и платить налоги и формально не вызывать подозрений у налоговых органов.

Отличия надо искать глубже, внимательно исследуя большое число косвенных признаков. Благонадежную компанию отличают более сложные и в основном качественные показатели: «живой» сайт, обновляющиеся вакансии, реальные платежи, заключенные и исполненные госконтракты, наличие лицензий и т. п. Вот тут мы и приходим к большим данным: нужно использовать массы разных источников информации, раскиданных по Интернету или собранных в специализированных базах данных многочисленных госорганов. С помощью этого массива данных модель оценки благонадежности компаний пополнилась большим числом факторов, которые помогают отличить хорошие компании от плохих" и дают налогоплательщикам возможность распознать в контрагенте «однодневку» еще на этапе знакомства.

PC Week: Но если «однодневки» постоянно адаптируются к новым условиям, не получается ли, что мы гоняемся за тенью?

С. Я.: Да, гонка эта непростая, но эффект очевиден — тень эта постоянно уменьшается, т. е. бизнес-среда становится все более здоровой. Так изучаемый нами «Индекс должной осмотрительности» (ИДО) показывает, что число юрлиц с признаками «однодневности» снизилось за последние пять лет почти в три раза (до 650 тыс.) и составляет примерно до 15% от общего числа коммерческих компаний. Тем не менее риск столкнуться с токсичной компанией в России по-прежнему весьма велик. При этом для разных категорий компаний есть различные виды рисков и соответствующие индексы нужно рассчитывать по разным моделям.

Кроме изучения официальных источников информации, растущую роль играют, если можно так сказать, социальные методы, когда собираются и анализируются сведения от самих компаний об их контрагентах. Так, система «СПАРК-Мониторинг платежей» анализирует платежную дисциплину 500 тыс. российских компаний. В рамках этого сервиса, функционирующего с 2011 г., участники рынка обмениваются информацией о том, вовремя ли их контрагенты оплачивают текущие счета. Эти данные поступают в систему анонимно, в ней агрегируются и затем превращаются в рейтинг платежной дисциплины компании.

PC Week: Решение подобных задач — это не только современные технологии, но и довольно сложная математика. Какие методы тут применяются?

С. Я.: Да, все эти наши индексы и рейтинги — это очень интересная ИТ-задача, которая связана со статистическим анализом громадных массивов данных с использованием различных моделей и оценкой влияния значимости сотен факторов. Например, для построения ИДО мы тестировали логистическую регрессию, гибридную нейронечеткую сеть и многофакторную модель на основе бинарных деревьев. Модели тестировались на тщательно сформированных «плохих» и «хороших» выборках, составление которых — отдельная ИТ-задача: к примеру, нужно проанализировать определенную выборку решений арбитражных судов на контекст проявления должной осмотрительности, автоматически найти те решения, где победителем была ФНС, извлечь из найденных решений юрлиц и идентифицировать их. Результатом всей проделанной работы мы можем гордиться — предиктивные показатели индексов достаточно высокие. При этом сама модель акцептована аналитиками наших американских партнеров — компанией D&B, крупнейшим игроком на рынке баз данных для оценки кредитных рисков, а ее результаты используются в их продуктах по всему миру.

PC Week: И все же насколько эти проблемы являются актуальными для бизнеса? А если актуальны, то для каких категорий в первую очередь?

С.Я.: Что касается актуальности, то тут есть хороший комплексный показатель — динамика этого рынка. Так, по нашим оценкам, общий объем российского рынка информационных бизнес-систем, составляет более 3 млрд руб. и продолжает расти на 6–8% в год, несмотря на общий спад в экономике страны. Должен сказать, что рынок подобных систем начал формироваться примерно с 2000 г. и мы были одним из его пионеров. Базы данных для служб безопасности существовали и до этого, но они не были по-настоящему аналитическими, не объединяли столь широкого набора источников. Главное — они не были открытыми, так как содержали персональные данные, серые и просто нелегальные источники.

Повышение актуальности проверки контрагентов на благонадежность определяется двумя взаимосвязанными факторами: непосредственной заинтересованностью самой компании в том, чтобы, во-первых, иметь дело с проверенным партнером и, во-вторых, соответствовать требованиям регулятора. В упрощенном виде можно сказать так: чтобы не «попасть на деньги» в первом случае из-за того, что они могут пропасть вместе с контрагентом, во втором — в результате штрафа от ФНС.

Вполне понятно, что пользователями подобных открытых информационных бизнес-систем стали в первую очередь крупные предприятия, которые работали с множеством партнеров, благонадежность которых вручную проверить было просто невозможно. Необходимость в системной проверке контрагентов возникла после постановления пленума Высшего арбитражного суда от октября 2006 г., который ввел понятие «должной осмотрительности». Постепенно под давлением налоговиков проверка контрагентов превратилась в обязательную процедуру практически для всех компаний. Помимо необходимости проверять контрагентов у клиентов информационных систем стали формироваться и другие информационные потребности. Так, в большом числе законов и нормативных актов (о внешнеторговой деятельности, закупках, ПОД/ФТ) появилось требование проверки конечных бенефициаров. Мы ответили на это созданием сервиса по выявлению цепочки владельцев, в том числе — трансграничных, став фактически международной базой данных. По европейским странам в системе идентифицированы с помощью реестров этих стран в среднем 80–90% юридических лиц, являющихся владельцами долей в российских компаниях, и это позволяет обнаруживать дальнейшие трансграничные связи.

Одновременно с ростом спроса на такие задачи, конечно, развиваются сами сервисы. Сначала мы ориентировались на то, что пользователями наших сервисов будут специалисты-аналитики в компаниях, им нужно получать большой объем информации, которую они сами будут детально изучать. Но потом фокус начал смещаться в сторону бизнес-пользователя, например директора — ему нужно получать ответ на запрос в более просто виде, типа «да» или «нет». Это особенно важно для малых и средних компаний, у них аналитических отделов просто нет. По мере расширения числа клиентов и совершенствования технологий снижалась стоимость сервисов, они становились более доступными. Кроме того, мы разработали API, через них приложения заказчиков могут работать с функционалом наших сервисов в автоматическом режиме.

PC Week: Как организована эта работа в техническом и организационном плане? Какие источники информации вы анализируете, с какими организациями сотрудничаете?

С. Я.: Мы используем все доступные публичные данные и собираем информацию сами. Всего мы используем несколько сотен источников. Это открытые данные органов власти, данные из Интернета, с торговых площадок и бирж. Какие-то из этих источников платные, другие — бесплатные.

Если посмотреть на СПАРК с точки зрения базы данных и ее структуры, то на задачах проекта задействовано более 40 физических серверов в дата-центре. БД имеет размер около 20 Тб и зарезервирована таким образом, чтобы минимизировать время простоя в случае сбоя основных серверов. То есть у нас внедрено полное зеркалирование. В качестве СУБД используем Oracle, доказавшую свою надежность и обеспечивающую высокую производительность под нагрузкой в миллионы запросов в час. Серверы приложений объединены в кластеры, позволяющие балансировать нагрузку, что особенно важно в пиковые часы, и оперативно добавлять серверные мощности, когда это необходимо.

PC Week: А как реализован ваш лингвистически-математический аппарат? Вы используете какие-то сторонние продукты или что-то разрабатываете сами?

С. Я.: Сложная аналитика — это тема, где нужно быть не только постановщиком задачи, но зачастую и разработчиком, поскольку приходится сталкиваться с принципиально новыми проблемами. Приведу только один пример. Мы лет пять назад занялись задачей эффективного построения взаимосвязей между лицами, юридическими и физическими, и нахождения прямых и косвенных связей между двумя случайными лицами. Искали решения на стороне, протестировали десятки профессиональных программ (в основном иностранных), но так и не приблизились к решению. И в результате нужное ПО сделали наши собственные лингвисты-математики с параллельного проекта СКАН. В итоге на сегодня система анализа связей в СПАРК является уникальным промышленным решением класса графовых баз данных (т. е. систем, оперирующих понятиями узел — связь). В настоящий момент база содержит около 40 млн узлов, из них организаций — 12 млн, персон — 14 млн В качестве узлов в БД также загружены адреса и телефоны. Учитываются связи владения, управления, юридические адреса и т. п., общее количество связей всех типов — около 100 млн При этом в среднем организация имеет четыре-пять связей с другими узлами, а среднее количество связей у произвольного узла не превышает трех, т. е. граф в целом получился довольно разряженный.

PC Week: Вы уже упомянули о том, что вопросы экономической безопасности выходят за государственные границы. Как вы взаимодействуете со своими зарубежными контрагентами — сотрудничаете или конкурируете?

С. Я.: «Знай своего клиента» — это общепризнанная мировая практика, поэтому в данной сфере работают многие известные информационные компании. Крупнейшая из них — Dun & Bradstreet, с которой у нас создано совместное предприятие. Весьма актуальна в мире и тема оценки кредитных рисков, и тут России еще есть куда развиваться. В целом информационный рынок России в сегменте B2B идет туда же, куда и мировой, просто иногда с небольшим отставанием по времени.

Чтобы использовать лучший мировой опыт, применять самые современные наработки, мы создали в начале 2000-х систему партнерств. Это, например, кредитное бюро, где нашим партнером является ведущий мировой игрок в этом сегменте — Experian. Мы были, кажется, хорошими учениками и сегодня сами делаем системы, которые вполне выдерживают сравнение с мировыми аналогами. Если характеризовать в целом характер наших отношений с иностранными подобными системами, то сейчас это скорее партнерство, когда каждый больше занимается своим национальным информационным пространством, и в меньшей степени — конкуренция. Но при этом мы не намерены замыкаться только в рамках России, хотим продвигать свои разработки и за рубеж, тем более что у нас есть действительно передовые решения. Например, та же Dun & Bradsteet теперь во всем мире использует наши скоринги по российским компаниям. Ну а с системой X-Compliance мы стали первой российской компанией, которая вышла на международный рынок информационных систем в области противодействия отмыванию денег и борьбы с финансированием терроризма.

PC Week: Спасибо за беседу.

Источник: pcweek.ru

В сложной аналитике нужно быть не только постановщиком задачи, но зачастую и разработчиком

Рассылка о новых публикациях