Поющий Распутин и женщина на лошади

Что насоздавали нейросети на этой неделе?

Maryna Hlaiboroda

Published in

Hey Machine Learning

4 min readJun 21, 2019

Microsoft обучил нейросеть генерировать изображение по текстовому описанию

Команда исследователей из Microsoft Research разработала новую архитектуру генеративно-состязательной нейронной сети, которая способна генерировать сложные изображения на основе текстового описания. Алгоритм умеет создавать не только базовые объекты, как это делают существующие text-to-image системы, но и рисовать сложные сцены с множеством разных составляющих.

Основная задача команды заключалась в том, чтобы обучить нейросеть понимать корреляцию между объектами, описанными в тексте. Например, если есть определение «женщина в шлеме сидит на лошади», то система должна правильно расположить предметы друг относительно друга.

Пример работы алгоритма по текстовому описанию «женщина в шлеме сидит на лошади»

Для этого инженеры создали и обучили новый алгоритм — ObjGAN. Это объектно-ориентированная генеративно-состязательная нейросеть, которая при создании картинки использует LSTM-систему. Слои в сети с долгой краткосрочной памятью анализируют необходимый текст и выделяют из него те элементы, которые должны быть на конечном изображении. Затем рисуется форма итоговой картинки, а ObjGAN дорабатывает её до конечного результата.

В качестве обучающих данных был взят датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями.

Пример работы ObjGAN и других text-to-image систем

arXiv.org

IBM создал алгоритм прогнозирования рака молочной железы

Vicky Kasala Productions via Getty Images

Технологический гигант IBM сообщил о разработке алгоритма искусственного интеллекта, который прогнозирует рак молочной железы за год до его проявления с точностью 87%. Как заявили в компании, их решение отличается от существующих тем, что использует сразу несколько методов предсказаний, основанных на маммограммах и медицинских записях.

Специалисты в IBM обучают ИИ различным изображениям результатов маммограмм, которые связаны с биомаркерами и клиническими данными. Это позволяет создать алгоритм, который работает с высокой точностью и может снизить риски тяжелого заболевания среди пациентов, устанавливая взаимосвязь между деталями, которые тяжело заметить лишь по снимкам. Кроме этого, алгоритм также имеет доступ к результатам биопсии, лабораторных тестов и прочих процедур.

По словам представителей компании, алгоритм уже сейчас можно использовать как дополнительный инструмент информирования. Так, результаты, представленные искусственным интеллектом, могут подтвердить прогноз рентгенолога и снизить вероятность дополнительного исследования. Особенно это полезно в местах, где существует нехватка специалистов, либо в ситуациях, когда времени на обследование нет.

Engadget

Adobe анонсировала новое ИИ-приложение для рисования на iPad

Компания Adobe объявила в своём блоге о создании нового приложения для рисования изображений различными техниками на iPad — Fresco. Его релиз запланирован на конец 2019 года.

Термин «фреска» происходит от итальянского «свежий» и описывает процесс создания живописи путем смешивания цветных пигментов с водой и нанесения получившегося соединения на влажную штукатурку. В Adobe Fresco включен инструмент под названием Live Brushes, который основан на платформе искусственного интеллекта Adobe Sensei. Он имитирует процесс взаимодействия красок в реальной жизни, а также как масла и акварели передают цвета и реагируют друг с другом.

Также в приложении доступны стандартные векторные и растровые кисти.

Чтобы опробовать Adobe Fresco после официального релиза, необходимо заполнить форму участника бета-теста.

The Verge

В Microsoft PowerPoint добавят ИИ-репетитора речи

Компания Microsoft анонсировала о скором появлении в PowerPoint виртуального ассистента Presenter Coach на основе искусственного интеллекта, предназначенный для помощи в репетиции выступлений для презентации.

Помощник будет слушать речь пользователя через микрофон устройства и анализировать ее темп, лексику, проверять наличие слов-паразитов, пауз, хезитаций, таких как «эээ», а также нецензурных выражений. Дополнительно ассистент сможет измерить, насколько часто пользователь зачитывает текст со слайда. На основе анализа речи помощник сможет дать рекомендации по улучшению выступления.

Presenter Coach появится в PowerPoint летом 2019 года. Сначала он будет доступен в веб-версии приложения. О том, когда функция появится в полноценном PowerPoint, а также список поддерживаемых языков в компании не озвучили.

Microsoft

DeepFake превратил фотографии в поющие портреты

Исследователи Имперского колледжа Лондона в сотрудничестве с Центром искусственного интеллекта в Великобритании применили технологию DeepFake для создания «говорящих» и «поющих» портретов из одной фотографии и одного аудиофайла.

Для демонстрации работы алгоритма разработчики показали несколько видеороликов. Первое было создано с использованием фотографии известного ученого Альберта Эйнштейна и звукозаписи с его выступления.

Также исследователи «заставили» Григория Распутина исполнить песню Бейонсе Halo.

Кроме этого, ученые продемонстрировали ролик, в котором губы и мимика не просто совпадают с аудиодорожкой, а и передаются с определенной эмоцией.