Нейросети генерируют видео по двум картинкам и включают зеленый свет пешеходам

Какими новостями удивила последняя неделя мая?

Maryna Hlaiboroda

Published in

Hey Machine Learning

5 min readMay 31, 2019

Microsoft расширил Excel для iPhone распознаванием таблиц

Технологический гигант Microsoft обновил мобильное приложение Excel для iPhone новой функцией. Теперь человек может сфотографировать напечатанную таблицу, а алгоритм с ИИ преобразует её в электронную с возможностями редактирования.

Изначально, в марте 2019 года, эта функция стала доступной для пользователей ОС Android. Система уже хорошо работала с маленькими таблицами, состоящими из нескольких столбцов. При оцифровке больших таблиц на выходе иногда возникали ошибки, требующие исправления вручную. Но если система самостоятельно обнаруживала в какой-то из ячеек сгенерированной таблицы ошибку, она выделит это место.

Теперь же подобных ошибок на порядок меньше и таблицы, списки и графики распознаются автоматически с помощью системы оптического распознавания символов и алгоритмов машинного обучения.

Microsoft

Google обучил нейросеть генерировать видео из двух кадров

Исследователи компании Google разработали алгоритм, способный генерировать видео на основе первого и последнего кадров.

Система базируется на сверточной нейронной сети, которая генерирует видеопоследовательности непосредственно в пиксельной области. Сначала сеть создает скрытое видеопредставление, используя механизм стохастического слияния, который учится включать информацию из начального и конечного кадров. Далее модель обучается создавать такое скрытое представление путем постепенного увеличения временного разрешения, а после декодировать его в пространственно-временную область, используя 3D-свертки.

Для проверки работы алгоритма, исследователи уменьшили все изображения из трех датасетов до разрешения 64x64 пикселя. Каждый набор содержал в сумме 16 кадров, 14 из которых должен был сгенерировать искусственный интеллект. Система обучалась 5 дней на GPU Tesla V100.

По словам авторов проекта, в будущем такой алгоритм станет полезным инструментом для генерации видео на основе минимального набора входных данных.

arXiv.org

ARM анонсировала «существенный» прирост скорости ИИ-вычислений в новых чипах

Британская компания ARM в рамках выставки Computex 2019 представила две новые архитектуры ARM Mali-G77 и Cortex-A77, которые должны обеспечить существенный прирост в мобильных вычислениях, особенно в области искусственного интеллекта.

Так, графический чип Mali-G77 демонстрирует в целом прирост на 40% по сравнению с прошлогодней архитектурой G76, и на 60% в задачах машинного обучения. Кроме этого, процессор на 30% энергоэффективней по сравнению с предшевствеником.

Центральный процессор Cortex-A77 изготовлен по 7-нм технологическому процессу, и по сравнению с прошлогодней архитектурой A76 обеспечивает прирост показателя количества инструкций на такт на 20% при той же энергоэффективности. В задачах машинного обучения производительность увеличена в 35 раз по сравнению с чипом Cortex-A55, что намного больше, чем сообщалось ранее.

В компании пока не сообщили, когда новинки поступят к партнерам ARM. Скорее всего Cortex-A77 и Mali-G77 попадут к производителям в конце этого года, а первые устройства на базе новой архитектуры появятся на рынке в начале 2020 года.

Engadget

ABBYY выпустила мобильное приложение для распознавания текста на базе нейронных сетей

Компания ABBYY, которая занимается разработкой программного обеспечения в области интеллектуальной обработки данных и лингвистики, представила мобильное приложение ABBYY FineScanner AI для поиска в смартфоне документов, которые содержат текст.

Работа приложения основана на базе нейронных сетей, и оно способно распознавать текст на изображениях без активного подключения к интернету. При предоставлении доступа к хранилищу, нейросеть проанализирует все файлы на устройстве и покажет подборку изображений с текстом, убрав при этом пейзажи, портреты и другие графические элементы. Кроме этого, FineScanner AI может улучшить качество снимков для просмотра и печати, а также способен убрать лишний фон. На данный момент офлайн-режим работает с 63 языками.

В онлайн-режиме пользователи могут работать с большим количеством языков и сохранять форматирование документов — заголовки, таблицы и стили — и конвертировать сканы в форматы Word, Excel, Epub и еще 10 других.

Приложение уже доступно в AppStore и Play Market и поддерживается на устройствах с iOS 10 и Android 5 и выше. Для обработки изображений с помощью нейросетей телефон должен работать на iOS 11 и Android 6, а также более актуальной версии МОС. При этом, приложение платное: так, пользователю доступен демо-режим на пять изображений, а далее действует подписка в размере $2,59 в месяц или $7,60 в год.

ABBYY

Венские светофоры оснастят системой распознавания пешеходов

Инженеры Грацского технического университета (Австрия) по заказу мэрии Вены разработали автономную систему переключения пешеходных светофоров с помощью компьютерного зрения, которая должна заменить привычные кнопки.

По задумке разработчиков, в светофоры австрийской столицы установят автономную систему, которая с помощью камер в режиме реального времени будет мониторить участок улицы вблизи перехода. Когда пешеход попадает в зону видимости камер, алгоритм проанализирует его траекторию и в течении секунды определит, намерен ли тот переходить дорогу.

Если алгоритм определяет намерение пересечь проезжую часть пешеходом, он дает команду на переключение сигнала светофора. При этом отмечается, что зеленый свет будет гореть достаточно долго, чтобы пешеходы успели безопасно перейти дорогу, включая тех, кто начал пересечение уже после того, как зажегся зеленый. Если же пешеход подошел к переходу, а затем пошел дальше, то запрос на зеленый свет будет отменен.

Согласно проектной документации, все вычисления должны происходить непосредственно в светофорном коробе, а видео с камер не будут записываться и передаваться на сторонние сервера. Кроме этого, система способна работать круглосуточно при любых погодных условиях. Также ей не страшны перепады напряжения и хулиганы, которые нажимают на светофорную кнопку просто так.

На первом этапе власти Вены планируют оборудовать такой системой лишь несколько светофоров до конца 2020 года. Если эксперимент оправдает себя, в городе оборудуют камерами все кнопочные светофоры, которых на сегодняшний день установлено более 200 единиц.

New Atlas