NU: искусство управления интеллектом
Передовой опыт научных подразделений Nazarbayev University

Развитие университетской науки - важный тренд мирового образования. Мировая практика показывает, что лучшие результаты получаются, когда обучением студентов занимаются ведущие ученые, при этом привлекая их к реальным исследованиям.
Это своего рода дуальное обучение, только вместо производства студенты сами участвуют не в учебных, а в научных экспериментах.
В Казахстане намерены масштабировать лучший опыт национальных лабораторий и технопарка Nazarbayev University (NU).
Оставим в стороне политику, этот вуз за 13 лет своего существования доказал свою состоятельность как минимум в научных исследованиях мирового уровня.
В составе этого уникального вуза четыре исследовательских центра:
Институт интеллектуальных систем и искусственного интеллекта (ISSAI), National Laboratory Astana, NAC Аналитика, и Проектная группа Лаборатории Энергетического Космоса.
Алиса заговорила на казахском
ISSAI основан недавно, в сентябре 2019 года, но уже стал лидером исследований и инноваций в РК в области ИИ. Упор сделан на исследования в сфере машинного интеллекта, с их помощью ученые НУ будут решать реальные проблемы промышленности и общества.
Три главных направления исследований Smart ИНДУСТРИЯ 4.0, Smart Здравоохранение и Smart Жизнь.
Среди множества интересных проектов Института «Распознавание казахских речевых команд» или Speech Command Recognition (SCR) .
SCR хорошо известны нам по Алисе из Яндекса, широко используются они в таких приложениях как умный дом с голосовым управлением, с их помощью можно также управлять роботами, даже пресловутым «Федором» Роскосмоса.
Но большинство идентификаторов SCR разработаны для самого популярного языка в мире - английского, и поэтому в распоряжении специалистов огромная база данных Google Speech Commands Dataset (GSCD).
А наши умники из НУ создали набор данных казахских речевых команд - Kazakh Speech Command Recognition – KSCD. Он состоит из 35 ключевых слов, взятых из GSCD-V2 и переведенных на казахский язык. Ключевые слова - “артқа”, “алға”, “оңға”, “солға”, “төмен”, “жоғары”, “жүр”, и др. - вперед, назад, направо, налево, вверх, вниз и т.п.
Всего в сборе данных через телеграм-бот участвовало 62 мужчины, и 57 женщин. После ручной обработки речевая «кладовая» содержит 3623 записи. Кстати, любой человек может внести свой вклад в развитие отечественной технологии по телеграм-боту: https://t.me/kz_commands_collector_bot И может даже ваш голос настолько понравится исследователям, что появится шанс быть приглашенным в дикторы на ТВ или радио.
Для проверки эффективности KSCD обучили и оценили современную модель SCR — Keyword-MLP. И на тестовом наборе модель достигла высокой точности - 97%.
Причем набор данных, исходный код и предварительно обученные модели сделали общедоступными в репозитории GitHub. Кроме того, созданы подробные учебные пособия по проекту. Видео доступны на YouTube-канале института.
В другом лингвопроекте наоборот достигается преобразование казахского текста в речь. В 2021 году специалисты ISSAI разработали базу речевых данных «KazakhTTS» высокого качества с открытым исходным кодом - более 90 часов казахской речи и аудио, записанных профессиональными дикторами. Она была хорошо востребована.
В прошлом году разработали более продвинутая версию “KazakhTTS2” с объём 271 часа. В частности, разнообразили темы новыми книгами и статьями из Википедии.
Что это дает на практике - на основе KazakhTTS2 можно создавать программы преобразования казахского текста в речи для различных приложений. К примеру, для людей с особыми потребностями. KazakhTTS2 также доступен для бесплатного скачивания на сайте ISSAI.
Смарт-здоровье
Актуальный проект ИИ в сфере медицины – «Автоматическая сегментация опухоли головного мозга». В институте на основе глубокого обучения ИИ разработан надёжный инструмент сегментации (определения пространственного расположения) опухоли головного мозга. При этом были использованы данные различных больниц Астаны.
В чем его преимущество — это полностью автоматизированный метод высокой степени надежности, дающий точный и воспроизводимый прогноз развития опухолевых субструктур.
Стоит отметить, что надежность диагностики, как и любого иного научного исследования, достигается только при большом количестве данных. Лишь в этом случае выявляются общие закономерности развития объекта (в данном случае - болезни) и отсекаются индивидуальные факторы, случайности, ошибки эксперимента.
Также будет востребован проект «Эпидемический Симулятор COVID-19 для Казахстана». Как известна, это пандемия унесла по всем миру свыше 15 млн жизней. Благодаря принятым превентивным профилактическим мерам (пусть и порой избыточным) нашей республике удалось избежать худшего. По покатила отношение числа умерших от КОВИТД-19 к общему числености населения Казахстан оказался в группе наиболее благополучных стран, что подтверждено ВОЗ.
А, к примеру, на России, где правительство, Минздрав и государственные СМИ вместо реальной борьбы с пандемией увлеклись конспирологией и страстной борьбой с мнимым чипированием, бредовой теорией «золотого миллиарда», избыточная смертность составила в этот период свыше 1 млн человек. Таковы официальные данные Росстата. И это один из худших показателей в мире среди известных крупных стран.
Команда института во главе с профессором Гусейном Атаканом Варолом разработала стохастический (основанный на вероятностном подходе) симулятор для моделирования распространения COVID-19 в Казахстане.
Симулятор был откалиброван с использованием реальных данных, варьирующихся ряда факторов, начиная с плотности населения до состояния здравоохранения для каждого региона.
Республика была представлен в графике из 17 соединенных узлов (14 регионов и 3 городов республиканского значения). И каждый узел использовал отдельную эпидемиологическую модель SEIR (восприимчивая, незащищенная, заразная, восстановленная).
К слову, Южно-Казахстанская область в это время поражала мир фантастически показателями по заболевшим и умершим от этой страшной болезни… Секрет успеха здравоохранения ЮКО, к великому сожаления, так и не был раскрыт и тиражирован Минздравом РК …
Симулятор моделировал распространение пандемии между регионами с учетом всех видов коммуникаций между ними. И на этой основе он успешно предсказывал динамику распространения COVID-19 в целом по стране. Стоит отметить, что эти прогнозы в целом хорошо коррелировали с отчётами регионов, даже с учетом возможных приписок местных чиновников
По давней традиции института ISSAI исследователи в открытом доступе выложили исходный код (https://github.com/baimukashev/COVID-19_simulation/ ). Поэтому его можно не только применять, но также адаптировать и даже самостоятельно совершенствовать симулятор, добавляя в него новые данные.
По мнению авторов, реальная ценность симулятора в возможности моделирования различных мер по подавлению болезней (не только КОВИДА-19!) и смягчению негативного эффекта. Это, к примеру, введение масочного режима, временное закрытие увеселительных заведений, переход на онлайн-обучение и работу в удаленном доступе, ограничение поездок и даже полный карантин.
