21 января 2019 г. 19:25

Шок будущего. Как поставить искусственный интеллект на службу Евразийскому союзу

/ Шок будущего. Как поставить искусственный интеллект на службу Евразийскому союзу

Информационные технологии и искусственный интеллект (ИИ) все глубже проникают в нашу повседневную жизнь, однако в некоторых областях основная часть работы по-прежнему проделывается почти полностью вручную. Одной из таких областей является международная торговля. Использование ИИ в этой сфере во многом бы упростило работу госслужащим и помогло бы ускорить заключение соглашений между странами и объединениями, которое сегодня может занимать годы. Команда разработчиков MEERA Project предлагает систему поддержки принятия решений для Евразийского союза, позволяющую торговым переговорщикам упростить решение некоторых кейсов и еще на шаг приблизиться к «цифровому будущему».

Сегодня искусственный интеллект (artificial intelligence – AI) активно внедряется в юридическую сферу. Темп развития legaltech индустрии сравнивают с fintech 5 лет назад. Программное обеспечение с элементами ИИ имитирует определенные операции человеческого разума – позволяет расшифровывать данные по указанным параметрам и применять алгоритмы машинного обучения. А способность ИИ анализировать и структурировать огромные массивы данных позволяет повысить количественные показатели работы. Тем самым ИИ совершенствует работу людей, освобождает их время для выполнения задач более высокого уровня, таких как консультирование клиентов, ведение переговоров о сделках и появление в суде.

Искусственный интеллект в юридической сфере

Одна из основных функций, которые выполняют продукты ИИ в юридической сфере – это анализ документов. Машины могут просматривать документы и помечать их как соответствующие конкретному случаю. Как только определенный тип документа обозначен как релевантный, алгоритмы машинного обучения могут приступать к работе, чтобы найти другие, аналогично релевантные документы.

Искусственный интеллект намного быстрее сортирует документы, чем люди. Подобные системы поддержки принятий решений снижают нагрузку на персонал компании, перенаправляя им для ручной обработки только сомнительные документы, а не требуя, чтобы юристы изучали весь список документов.

Большая часть работы юридических фирм заключается в проверке контрактов для выявления рисков и ошибок при их составлении, которые могут оказать негативное влияние на их клиентов. Постепенно все больше и больше юридических компаний уже переходят к машинному способу выполнения подобных задач, когда по факту клиенту необходимо просто загрузить черновик договора, либо предоставить необходимые данные, по которым робот сам составит контракт в нужном формате, с комментариями, дополнениями, ссылками или выделенными ошибками.

В соответствии с этим возникает вопрос: как скоро ИИ полностью поглотит юридический бизнес? Во многом он уже здесь.

Одной из крупнейших юридических фирм, которые внедрили искусственный интеллект в свою работу, является ROSS Intelligence, юридическая аналитическая платформа, основанная на базе технологии IBM WATSON. Компания работает по пяти основным направлениям: поиск документов, консультации экспертов, выделение и подчеркивание ключевых слов или участков текста, мониторинг всей нормативно-правовой базы на нахождение соответствующей информации, анализ и резюмирование загружаемых текстов. База данных включает в себя американское прецедентное право по всем областям, а также базу соответствующих кейсов.

Эндрю Арруда, один из основателей ROSS Intelligence, считает, что ИИ технологии будут внедрены в «команду каждого юриста в мире».

Наряду с ROSS активно развивают ИИ технологии в юриспруденции Casemine, Justis и Knomos.

В России такие системы поддержки принятия решений в большей степени предлагаются только четырьмя компаниями, которые занимают почти всю нишу данного рынка. Это «Консультант Плюс», «Гарант», «Кодекс», «ВЭД-Инфо» (последняя ориентирована больше на участников внешнеэкономической деятельности и таможенных представителей). При этом российские компании значительно отстают от иностранных компаний, являясь по факту просто поисковыми системами.

Чаще всего целевая аудитория компаний представляет собой игроков внешнеэкономической деятельности и юридические фирмы, в то время как система поддержки принятия решений для государственных органов просто отсутствует.

Ниже приведен сравнительный анализ иностранных и отечественных компаний, а также представлены параметры будущей системы поддержки принятия решений, разрабатываемой нашей командой:

Таблица 1. Анализ функционала западных и российских компаний

таб1.png

Интересно, что на данный момент у всех стран ЕАЭС есть национальные стратегии развития цифровой экономики, а на наднациональном уровне утверждена стратегия цифровой трансформации и построения взаимосвязанной цифровой экономики союза на основе единого цифрового пространства. Нормативно-правовая находится база в процессе разработки.

Распространенность цифровых технологий

Для оценки глобальной распространенности цифровых технологий на трех уровнях – бизнес, население, государство – Всемирным банком был разработан качественный показатель – Индекс цифрового внедрения (the Digital Adoption Index – DAI). DAI включает в себя три секторальных индекса. Особое внимание будет уделено DAI Government. В среднем этот секторальный показатель равен 0.60 для Европы и Центральной Азии.

Рассмотрим подробнее из чего состоит секторальный показатель. DAI Government – это среднее из трех кластеров-индексов: основные административные системы (core administrative system); цифровая идентификация (digital identification); онлайн-услуги для граждан и бизнеса (online public services). Каждый компонент секторального индекса нормализирован по шкале от 0 до 1.

Для России характерна высокая оценка почти по всем секторам: DAI Government – 0.80, DAI People – 0.85, DAI Business – 0.48; общий DAI равен 0.71.

Если углубляться в индексы DAI Government, то картина следующая: онлайн-услуги для граждан и бизнеса – 0.71; цифровая идентификация – 0.83; основные административные системы – 0.87. Интересно, что в рамках последнего индекса итоговый балл за систему управления государственными финансами (Public Financial Management System) посредством предоставления электронных услуг (e-services) составил 86.36 из 100 возможных (входит в топ-20) на 2016 г. Таким образом, можно отметить высокий уровень цифровизации в государственном секторе.

Однако цифровизация как инструмент развития направлена на улучшение работы по направлению G2B («правительство бизнесу» – например, оценка регулирующего воздействия (ОРВ) в ЕЭК) или G2С («правительство гражданам» – портал «Гос. услуги»). По направлению G2G («правительство правительству») разрабатываются такие механизмы, как «единое окно» ЕАЭС и интегрированная информационная система внешней и взаимной торговли Таможенного союза (ИИСВВТТ) для повышения эффективности работы служб, тем не менее процесс застопорился. Нельзя не отметить внедрение в рабочий процесс систем электронного документооборота (например, «Дело-Web») или электронных справочников по типу поисковых систем (например, «ВЭД-Инфо»). Тем не менее внедренных систем поддержки принятия решений в госструктуры фактически нет.

Возникающие трудности

В сферу международных отношений и международных экономических отношений, где нормативно-правовая база является основой, искусственный интеллект пока еще не проник. В рамках работы госорганов, а также исследовательских центров тратятся колоссальные ресурсы (человеко-часы) для решения довольно простых задач. Для подтверждения данного тезиса приведем ниже решение кейса.

Кейс условный, но может возникнуть в ходе переговоров по зоне свободной торговли (ЗСТ) между Евразийской экономической комиссией (ЕЭК) и Израилем.

ЕАЭС и Израиль заключают соглашение о создании зоны свободной торговли. Израиль предлагает включить положение о том, что при разработке мер, направленных на регулирование вопросов защиты персональных данных, Стороны соглашения должны учитывать международные рекомендации и стандарты.

Переговорщик ЕЭК исходит из ряда условий:

• внешнеторговый договор не может противоречить праву ЕАЭС;

• внешнеторговый договор не может противоречить национальным законодательствам государств – членов ЕАЭС;

• перевод национального законодательства стран союза, а также другой стороны переговоров на русский/английский может отсутствовать.

Последнее условие скорее является перманентной проблемой – недостаточная транспарентность в международной торговле.

Кейс решается в несколько этапов.

Этап 1:

А. Изучение законодательства ЕАЭС и стран ЕАЭС в области персональных данных. Сюда входят такие пласты нормативно-правовой базы, как:

a. Договор о ЕАЭС;

b. Акты Высшего Евразийского экономического совета;

c. Акты Евразийского межправительственного совета;

d. Акты ЕЭК;

i. Акты Совета;

ii. Акты Коллегии;

e. Международные договоры ЕАЭС;

f. Нормативно-правовые акты стран ЕАЭС;

g. Двусторонние и многосторонние договоры стран ЕАЭС с обязующем характером.

Б. Определение совпадающих и противоречащих позиций.

В. Сопоставление с международной практикой (ЗСТ, рекомендации, стандарты, документы ВТО, ЕС и другие).

Этап 2:

А. Изучение законодательства (включая проекты законов и международные договора) Израиля.

Б. Изучение рекомендаций стандартов, в разработке которых принимал участие Израиль.

Этап 3:

А. Сопоставление полученных результатов этапов 1 и 2.

Б. Определение перечня допустимых стандартов для ЕАЭС.

В. При положительном пункте 3-Б, определение формата включения положений касательно стандартов.

Как видно, объем работы для решения кейса велик. Но стоит учесть множество проблем, с которым сталкивается переговорщик в рамках решения такой несложной задачи.

Во-первых, единой базы с нормативно-правовыми документами всех стран нет. Поэтому приходится искать национальные базы, либо обращаться к частным компаниям, либо собирать документы по крупицам.

С последним вариантом развития событий можно столкнуться при поиске нужного документа по Израилю. Не все документы Израиля переведены, из-за чего пришлось обратиться к постороннему ресурсу, где, в частности, собраны тезисы по правовым актам разных стран. На сайте был найден новый непереведенный закон по теме Privacy Protection (Data Security). Основной же закон на английском языке (The Protection of Privacy Law 1981 г.) можно было найти на сайте Всемирной организации интеллектуальной собственности (ВОИС). На официальных сайтах государственных органов страны на английском языке содержатся лишь основополагающие законы.

Проблемы возникают и с национальными базами, если они существуют. В основном они носят технический характер. Иногда базы данных попросту долго не обновляются.

Некоторые поисковые системы зачастую не выдают нужных результатов. Например, если запрос состоит из двух и более слов, поиск выдает все документы, где встречается первое либо второе слово (это касается правового портала ЕАЭС).

Очень часто документ, результат поиска, оказывается сканом печатной версии, что делает поиск по многостраничному файлу в формате pdf невозможным.

Небольшое количество сайтов удобны для выгрузки читабельных текстов. Стоит выделить сайт Министерства юстиции Кыргызстана, использующий открытые данные: документы можно скачать в форматах xml и json для дальнейшего удобного исследования.

Некоторые базы (например, Единый реестр правовых актов и других документов СНГ) оснащают каждый документ паспортом или карточкой документа, который не только описывает сам документ, но и связывает его с другими документами из базы.

В основном сортировка документов идет по релевантности, дате принятия/изменения, иногда по органу принятия. Интересная в этом плане база данных ВТО: при поиске система предлагает пользователю облако хэштегов, имеющих отношение к полученным результатам. Это, с одной стороны, облегчает сортировку результатов запроса вручную и дает возможность ознакомиться с примерным их содержанием до скачивания, но, с другой стороны, зачастую дает ненужную категоризацию (например, предлагает пользователю подкатегорию «marketing», не имеющую отношение к изначальному запросу по персональным данным).

Классификация присутствует, например, на уже упомянутом Едином реестре СНГ – документы изначально поделены на 7 крупных блоков. Кластеризации нигде не наблюдается.

И уже упомянутая не раз проблема – отсутствие перевода (из 5 стран союза это в первую очередь относится к Армении). Это касается и самой поисковой системы: при заявленном переводе сайта на русский язык поисковая система при вводе запроса на русском выдает ошибку на языке страны сайта.

Решение проблемы

Описанные проблемы воодушевили нашу команду создать программное обеспечение, упрощающее решение легких кейсов для торговых переговорщиков.

Для описания алгоритма системы поддержки принятия решений мы используем блок-схему (рис. 1). Чтобы наглядно показать сильные и слабые стороны продукта был использован вышеизложенный кейс. Задача продукта – помочь переговорщику ЕЭК обнаружить наличие (или отсутствие) общих положений в области персональных данных в законодательной базе двух сторон переговоров.

рис1.png

Рис. 1. Алгоритм программной части проекта.

Запрос от пользователя запускает алгоритм системы поддержки принятия решений. Запрос состоит из двух параметров – тематика и выбранная страна (страны). В нашем случае тематика – «персональные данные», выбранная страна – Израиль.

Первый шаг алгоритма – поиск по тематике в базе данных законопроектов. База данных состоит из трех блоков:

1. Нормативно-правовая база ЕАЭС и стран союза;

2. Нормативно-правовая база страны переговоров;

3. Международная практика (ЗСТ, рекомендации, стандарты, другие документы, в которых не участвуют страны пунктов 1 и 2).

Первоначальный поиск ограничен нормативно-правовой базой ЕАЭС и национальными законодательствами стран-участниц переговоров (пунктами 1 и 2).

Первым шагом становится поиск по нормативно-правовой базе ЕАЭС. Следующий шаг алгоритма – поиск в базах данных государств – членов ЕАЭС и страны переговоров (поиск в этих источниках осуществляется по решению пользователя путем выставления параметров – галочек напротив необходимых стран). Поиск выдает результат – большое количество документов, из которых для дальнейшей обработки переговорщик в ручном режиме выбирает необходимые ему для решения кейса.

Далее программа ищет сходства в обозначенных документах. Сходством в законодательствах, например, будет запрет на использование данных третьими лицами без согласия субъекта данных. Главным же противоречием является требование по локализации (расположению) баз с персональными данными на территории Российской Федерации (встречается только в законодательстве России).

Если у переговорщика появляется необходимость в дополнительных источниках (в международной практике – пункт 3), то в этом же окне он делает запрос в третий блок базы. Так, из аналогичных соглашений по персональным данным в качестве результата будут доступны GDPR (Общий регламент по защите данных (ЕС)) и CBPR (Система правил трансграничной защиты частной информации (АТЭС)). После поиска в дополнительных источниках алгоритм ищет сходства в найденных документах по заданной тематике. При необходимости пользователь может получить справку-рекомендации в виде основных совпадений в международном законодательстве.

В результате использования алгоритма у переговорщика будут в наличии:

• Набор законодательных актов стран-участниц переговоров по выбранной тематике с выделением ключевых фрагментов;

• международные соглашения по выбранной тематике с выделением ключевых фрагментов;

• главные сходства и противоречия в нормативно-правовой базе стран-участниц переговоров в виде сопоставленных вырезанных фрагментов;

• выработанные рекомендации на основе аналогичных соглашений при необходимости;

Основным вызовом для реализации проекта является формирование общей базы данных законов. В решении нашего кейса был использован заранее подготовленный и переведенный набор документов, на основе которых проводился анализ на предмет совпадений/противоречий. Однако для работы в режиме реальных задач необходим намного больший объем документов. Среди возможных решений мы выделяем два: постепенный полуручной сбор законодательной базы, либо автоматический сбор алгоритмом в режиме реального времени при подключении к национальным базам данных. Реализация первого решения требует вложения больших ресурсов, но при этом результаты работы продукта будут куда более точными по той причине, что некоторые страны зачастую не имеют машиночитабельных баз данных.

Программное обеспечение

При выборе программного обеспечения наша команда в первую очередь ориентировалась на доступность и простоту инструментов для создания программной части продукта. Как результат было решено остановиться на комбинации сервисов Microsoft Azure и дополнительных скриптов на языке Python. Для решения некоторых прикладных задач использовался QDA Miner (рис.2). Основной смысл этой части статьи – продемонстрировать примеры использования выбранного программного обеспечения при создании продукта.

рис2.png

Рис. 2. Word Cloud GDPR (облако наиболее используемых слов в GDPR) – один из примеров использования QDA Miner.

Одна из первых задач, которая встает перед экспертом в самом начале анализа текста – подготовка данных. Для того чтобы осуществить грамотный анализ одного или нескольких текстовых файлов, нужно привести их в один формат. В этом случае используются алгоритмы стемминга (процесс нахождения основы слова для заданного исходного слова) при помощи различных библиотек на языке Python (например, NLTK).

Важнейшая часть проекта – классификация необходимой документации для упрощенного поиска необходимых документов по заданной тематике. В решении задачи классификации большого количества информации помогают методы машинного обучения в Microsoft Azure Machine Learning Studio. Так, для решения проблемы классификации можно использовать модули Extract N-Gram Features from Text (вычленение последовательностей из нескольких слов из текста), Logistic Regression (логистическая регрессия для предсказания категории, к которой относится тот или иной документ) (рис. 3).

Для применения алгоритмов машинного обучения необходимы наборы данных с выставленными категориями. Одним из способов получения такого набора является присваивание категорий при помощи различных баз данных с документами (например, база данных ВТО), генерирование общих тегов для каждой категории (по частоте слов). Для этого используется Web Scraping при помощи библиотек Python.

В проекте планируется также использование технологии облачного хранения данных, которые также предоставлены в Microsoft Azure. Необходимость использования облачных решений обусловлена портативностью продукта – в ином случае дискового пространства обычного компьютера было бы недостаточно для хранения на нем программной части продукта.

рис3.png

Рис. 3. Построение алгоритма в Microsoft Azure Machine Learning Studio.

Таким образом, использование искусственного интеллекта в международной торговле значительно упростит работу госслужащим, поможет быстрее и качественнее строить двусторонние и многосторонние отношения между странами и объединениями. Однако стоит помнить, что для этого государствам все еще необходимо поработать и над выполнением своих обязательств по транспарентности.

Команда разработчиков MEERA Project: Руслана Косенкова, Антон Кучеров, Екатерина Межеловская, Елена Тенюкова; Марк Деминов (руководитель)

Наука