https://frosthead.com

Изкуственият интелект генерира лицата на хората въз основа на техните гласове

Нова невронна мрежа, разработена от изследователи от Масачузетския технологичен институт, е способна да изгради грубо сближаване на лицето на индивида въз основа единствено на фрагмент от тяхната реч, документ, публикуван в доклади за сървър за печат arXiv .

Екипът тренира инструмента за изкуствен интелект - алгоритъм за машинно обучение, програмиран да „мисли“ подобно на човешкия мозък - с помощта на милиони онлайн клипове, улавящи повече от 100 000 различни говорители. Dubbed Speech2Face, невронната мрежа използва този набор от данни, за да определи връзките между гласовите сигнали и специфичните черти на лицето; както учените пишат в изследването, възраст, пол, форма на устата, размер на устните, костна структура, език, акцент, бързина и произношение, всички фактори в механиката на речта.

Според Мелания Еренкранц на Gizmodo, Speech2Face привлича асоциациите между външния вид и речта, за да генерира фотореалистични рендери на предни лица с неутрални изражения. Въпреки че тези изображения са твърде общи, за да се идентифицират като конкретна личност, по-голямата част от тях точно определят пола, расата и възрастта на говорителите.

Интересното е, че Джаки Сноу обяснява за Fast Company, новото изследване не само се основава на предишни изследвания относно прогнозите за възраст и пол от речта, но също така прожектира връзките между гласа и „краниофациалните особености“, като структурата на носа.

Авторите добавят: „Това се постига без предварителна информация или наличието на точни класификатори за тези видове фини геометрични характеристики.“

Все пак алгоритъмът има своите недостатъци. Както Mindy Weisberger отбелязва на живо науката, моделът има проблеми с анализа на езиковите вариации. Когато възпроизвежда аудиоклип на азиатски мъж, който говори китайски, например, Speech2Face създаде лице с правилния етнос, но когато същият индивид беше записан да говори английски, AI генерира изображение на бял човек.

В други случаи високопоставените мъже, включително децата, погрешно бяха идентифицирани като жени, разкривайки половите пристрастия на модела при асоцииране на ниски гласове с мъже и високи с жени. Като се има предвид фактът, че данните за обучението са до голяма степен получени от образователни видеоклипове, публикувани в YouTube, изследователите изтъкват още, че алгоритъмът не „представя еднакво цялото световно население“.

Според Джейн К. Ху от Slate законността на използването на видеоклипове в YouTube за научни изследвания е доста ясна. Такива клипове се считат за обществено достъпна информация; дори ако потребителят авторско право на своите видеоклипове, учените могат да включат материалите в своите експерименти при клауза за „честна употреба“.

Но етиката на тази практика е по-малко пряма. В разговор с Ху Ник Съливан, ръководител на криптографията в Cloudflare, заяви, че е изненадан, когато видя снимка на себе си, включена в изследването на екипа на MIT, тъй като никога не е подписвал отказ или е чувал директно от изследователите. Въпреки че Съливан казва на Ху, че би било „хубаво“ да бъде уведомен за включването му в базата данни, той признава, че предвид големия размер на базата данни, учените биха били трудни да достигнат до всички изобразени.

В същото време Съливан заключава: „Тъй като моят образ и глас бяха посочени като пример в книгата Speech2Face, а не просто използвани като точка от данни в статистическото проучване, би било учтиво да се свържете да ме информирате или поискайте моето разрешение. "

Едно потенциално приложение в реалния свят за Speech2Face използва модела за „прикачване на представително лице“ към телефонни разговори въз основа на гласа на високоговорителя. Snow добавя, че технологията за разпознаване на глас вече се използва в редица области - често без изричното познание или съгласие на хората. Миналата година Chase стартира програма „Voice ID“, която се научава да разпознава клиентите на кредитни карти, които се обаждат на банката, докато корекционните институции в цялата страна изграждат бази данни за „гласови отпечатъци на лишени от свобода“.

Изкуственият интелект генерира лицата на хората въз основа на техните гласове