Поющий Распутин и женщина на лошади
Что насоздавали нейросети на этой неделе?
Microsoft обучил нейросеть генерировать изображение по текстовому описанию
Команда исследователей из Microsoft Research разработала новую архитектуру генеративно-состязательной нейронной сети, которая способна генерировать сложные изображения на основе текстового описания. Алгоритм умеет создавать не только базовые объекты, как это делают существующие text-to-image системы, но и рисовать сложные сцены с множеством разных составляющих.
Основная задача команды заключалась в том, чтобы обучить нейросеть понимать корреляцию между объектами, описанными в тексте. Например, если есть определение «женщина в шлеме сидит на лошади», то система должна правильно расположить предметы друг относительно друга.
Для этого инженеры создали и обучили новый алгоритм — ObjGAN. Это объектно-ориентированная генеративно-состязательная нейросеть, которая при создании картинки использует LSTM-систему. Слои в сети с долгой краткосрочной памятью анализируют необходимый текст и выделяют из него те элементы, которые должны быть на конечном изображении. Затем рисуется форма итоговой картинки, а ObjGAN дорабатывает её до конечного результата.
В качестве обучающих данных был взят датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями.
IBM создал алгоритм прогнозирования рака молочной железы
Технологический гигант IBM сообщил о разработке алгоритма искусственного интеллекта, который прогнозирует рак молочной железы за год до его проявления с точностью 87%. Как заявили в компании, их решение отличается от существующих тем, что использует сразу несколько методов предсказаний, основанных на маммограммах и медицинских записях.
Специалисты в IBM обучают ИИ различным изображениям результатов маммограмм, которые связаны с биомаркерами и клиническими данными. Это позволяет создать алгоритм, который работает с высокой точностью и может снизить риски тяжелого заболевания среди пациентов, устанавливая взаимосвязь между деталями, которые тяжело заметить лишь по снимкам. Кроме этого, алгоритм также имеет доступ к результатам биопсии, лабораторных тестов и прочих процедур.
По словам представителей компании, алгоритм уже сейчас можно использовать как дополнительный инструмент информирования. Так, результаты, представленные искусственным интеллектом, могут подтвердить прогноз рентгенолога и снизить вероятность дополнительного исследования. Особенно это полезно в местах, где существует нехватка специалистов, либо в ситуациях, когда времени на обследование нет.
Adobe анонсировала новое ИИ-приложение для рисования на iPad
Компания Adobe объявила в своём блоге о создании нового приложения для рисования изображений различными техниками на iPad — Fresco. Его релиз запланирован на конец 2019 года.
Термин «фреска» происходит от итальянского «свежий» и описывает процесс создания живописи путем смешивания цветных пигментов с водой и нанесения получившегося соединения на влажную штукатурку. В Adobe Fresco включен инструмент под названием Live Brushes, который основан на платформе искусственного интеллекта Adobe Sensei. Он имитирует процесс взаимодействия красок в реальной жизни, а также как масла и акварели передают цвета и реагируют друг с другом.
Также в приложении доступны стандартные векторные и растровые кисти.
Чтобы опробовать Adobe Fresco после официального релиза, необходимо заполнить форму участника бета-теста.
В Microsoft PowerPoint добавят ИИ-репетитора речи
Компания Microsoft анонсировала о скором появлении в PowerPoint виртуального ассистента Presenter Coach на основе искусственного интеллекта, предназначенный для помощи в репетиции выступлений для презентации.
Помощник будет слушать речь пользователя через микрофон устройства и анализировать ее темп, лексику, проверять наличие слов-паразитов, пауз, хезитаций, таких как «эээ», а также нецензурных выражений. Дополнительно ассистент сможет измерить, насколько часто пользователь зачитывает текст со слайда. На основе анализа речи помощник сможет дать рекомендации по улучшению выступления.
Presenter Coach появится в PowerPoint летом 2019 года. Сначала он будет доступен в веб-версии приложения. О том, когда функция появится в полноценном PowerPoint, а также список поддерживаемых языков в компании не озвучили.
DeepFake превратил фотографии в поющие портреты
Исследователи Имперского колледжа Лондона в сотрудничестве с Центром искусственного интеллекта в Великобритании применили технологию DeepFake для создания «говорящих» и «поющих» портретов из одной фотографии и одного аудиофайла.
Для демонстрации работы алгоритма разработчики показали несколько видеороликов. Первое было создано с использованием фотографии известного ученого Альберта Эйнштейна и звукозаписи с его выступления.
Также исследователи «заставили» Григория Распутина исполнить песню Бейонсе Halo.
Кроме этого, ученые продемонстрировали ролик, в котором губы и мимика не просто совпадают с аудиодорожкой, а и передаются с определенной эмоцией.