Startup Jedi
Мы общаемся со стартапами и инвесторами, а вы перенимаете опыт.
Представьте: в рекламе английского чая образ Уинстона Черчилля говорит голосом самого Черчилля. Не просто похожим, а его настоящим голосом. Премьер-министр пьёт чай, причмокивает и надевает свой фирменный «котелок». В его голосе — никаких следов склеек, странного тембра, акцента и косноязычия. Всё чётко и максимально реалистично. А вместо Черчилля может быть любой живой человек или исторический персонаж, чей голос сохранился в записи. Киану Ривз, Маргарет Тэтчер, Виктор Цой — кто угодно!
Startup Jedi
Мы общаемся со стартапами и инвесторами, а вы перенимаете опыт.
Украинский стартап Respeecher научился практически идеально синтезировать голос. У ребят уже есть контракт с голливудской студией из топ-5 кинокомпаний фабрики грёз. CEO Respeecher Александр Сердюк рассказывает о своём проекте, который может наделать много шума в кино-, видеопроизводстве и не только.
...
Это сервис, создающий на основе сохранённого голоса любого человека новые звуковые дорожки. Если у вас есть чуть больше часа записи целевого голоса (который вы хотите услышать в результате), вы можете «произнести» им что угодно.
В основе технологии лежат проприетарные методы deep learning для создания высококачественной синтетической речи. Модель работает по принципу «speech to speech» — на вход подаются две аудиодорожки, на которых записаны одни и те же фразы, сказанные разными голосами. Это целевой голос (носителя которого мы воспроизводим) и голос источника (фразы, сказанные которым, модель будет трансформировать в целевой голос). Анализируя записи одинакового контента, нейросеть уясняет разницу между этими двумя голосами и в результате может из одного голоса сделать другой.
Весь эмоциональный контент — скорость речи, особенности произношения слов, смысловые интонации голосом, акцент — берётся от целевого голоса. Его голосовой аппарат «пересаживается» новому голосу. Теперь нейросеть может синтезировать нужный нам голос, переводя в него речь источника.
Записи целевого голоса нужен минимум час. Это может быть радиоинтервью, телешоу или аудиокнига. К конкретным фразам или типу контента привязки нет — крайне высока вероятность того, что в течение часа речи целевой голос произнесёт все необходимые сочетания звуков.
...
С помощью Respeecher можно:
1. Создавать контент с голосами звёзд или исторических персонажей (фильмы, аудиокниги, подкасты, радиопередачи).
Над одним таким проектом Respeecher работает с Массачусетским технологическим институтом. В его рамках, для документального фестиваля в Амстердаме, мы вместе со стартапом Canny AI воссоздаём образ Ричарда Никсона. Они делают визуальную часть, а мы — голос. Образ президента Никсона произнесёт свою речь, связанную с посадкой американцев на Луну. Она настоящая: он написал её однажды, но никогда раньше не произносил на публике.
2. Озвучивать и дублировать фильмы и сериалы, сохраняя нужные голоса. Актуально для ситуаций, когда актёры и дублёры физически не справляются с объёмом работы.
3. Озвучивать видеоигры. Видеоигры требуют очень много озвучки, вплоть до 30–40 часов. И часто известные актеры просто не в состоянии провести недели в студии. Respeecher может дать возможность другому актеру говорить нужным голосом — живого или исторического персонажа.
4. Менять голос операторов колл-центров. Так, чтобы все они говорили нужным голосом, без акцента, или адресовать разные голоса на разные категории клиентов.
5. Восстанавливать голос человека при частичной потере речи.
...
Перед командой Respeecher сейчас стоит три основных технических задачи:
1. Освоить работу в реальном времени. Технология пока не умеет синтезировать голос в потоковом режиме, потому что решение, которое мы сейчас используем, требует много времени для синтезирования речи. Работа в режиме реального времени — это понятная и предсказуемая инжиниринговая проблема, мы планируем решить её в течение полугода.
2. Научить нейросеть работать на более широком диапазоне эмоций. Сейчас она стабильно синтезирует спокойную речь, но может ошибаться, если голос-источник кричит, поёт, издаёт какие-то необычные звуки. Наша цель — генерировать весь спектр возможных эмоций без ошибок.
3. Заставить нейросеть работать на меньшем объёме входящих данных. Так, чтобы для синтеза требовался не 1+ час целевого голоса и голоса-источника, а гораздо меньше. Это вопрос юзабилити: запись пары часов речи в студии может занять несколько дней, это не очень удобно для клиента и актёра.
...
Недавно в рамках проекта Spectre в сети появилось фейк-видео, в котором образ Марка Цукерберга говорит голосом Марка Цукерберга. Он заявляет, что полностью контролирует будущее миллиардов людей, и знает все их секреты. Представители Фейсбук заявили, что не собираются удалять это или другие фейковые видео.
Я думаю, что Фейсбук, как и многие другие дальнозоркие компании, понимают: технология рано или поздно появится в открытом доступе. Задача компаний вроде Фейсбук не в том, чтобы оградить общество от использования этого инструмента, а в том, чтобы обучить общество. Не удаляя видео, Фейсбук даёт возможность увидеть, на что способны технологии, и научиться тому, что не всегда можно верить картинке на экране. Даже если она выглядит как чистая правда.
В газете могут напечатать ложь, на ТВ могут врать и манипулировать. То же самое и здесь: дипфейк-видео — просто другой формат контента. Способы донесения информации могут быть разными, но всех их объединяет то, что люди, увы, склонны врать, недоговаривать, преувеличивать. Нам всем нужна здоровая степень скептицизма по отношению к тому, что мы видим и слышим.
Мы хотим сделать свой движок детектора искусственного голоса, который будет отличать настоящую речь от синтезированной. Сейчас думаем над тем, как интегрировать систему water-marking’а в наши аудиодорожки, чтобы наверняка можно было сказать, что они были сгенерированы, и сгенерированы именно нами.
В этом направлении мы общаемся с компаниями, которые делают системы голосовой авторизации и аутентификации. Наши датасеты могут помочь им обучить свои модели лучше распознавать синтезированную речь.
Мы в Respeecher уделяем много внимания безопасности — наша технология доступна только нам. Получаем от клиентов нужные записи и отдаём им результат — искусственная речь синтезируется на нашей стороне.
...
Наша позиция однозначна — нужно. От всех клиентов мы требуем разрешение на использование голоса от его владельца, родственников или представителей.
Можно ли свободно использовать голос исторического персонажа, например, Че Гевары? У меня пока нет ответа: это один из вопросов, который мы пытаемся решить вместе с юристами. Законодательство в этой области размытое, оно сильно разнится в части персональных прав, но мы уделяем много внимания тому, чтобы всё было правильно и честно. По сути, рынок в этом сегменте только формируется, и мы как раз можем его развивать. С одной стороны, круто, что мы в пелотоне. С другой стороны — не очень: это затягивает выход на рынок некоторых проектов, т.к. мы первые, кто разбирается в юридических нюансах подобной работы.
У нас пока не было возможности пообщаться со звёздами первой величины и узнать их мнение о синтезе их голоса. Но есть индикаторы, говорящие о том, что им будет очень интересно лицензировать свой голос для такой технологии. Наконец-то известные люди смогут удовлетворить спрос на свой голос со стороны создателей крутого контента.
Представь, что ты — Морган Фримен. Тебе 82 года, и твоим голосом хотят записать практически всё. От простой рекламы до крутых проектов — фильмов, книг, игр, анимации. Все хотят заполучить голос Фримена, и он вынужден тщательно выбирать, потому что физически не может проводить в студии больше N часов в неделю, и что-то ему банально неинтересно. Respeecher может исправить это. Мы убираем физические ограничения в том, сколько работы может сделать хозяин голоса — его голос начинает «жить» без него. А хозяин, конечно, зарабатывает на этом.
...
У нас подписан контракт с крупной голливудской студией, входящей в топ-5 Голливуда. Это очень крутая компания, но мы пока не можем говорить об этом сотрудничестве. Вместе с ними мы работаем над легендарным фильмом, который достаточно скоро выйдет на экраны. Для этого проекта мы оживляем голос актёра, который умер несколько лет назад. Не так давно мы получили от киностудии данные и отправили им первые результаты — директор фильма был впечатлён. Нам уже прислали аудиодорожки, которые должны зазвучать в фильме, и сейчас мы синтезируем голос актёра для них.
Есть ещё несколько интересных клиентов. Например, проект с крупным английским бродкастером, для которого мы оживляем голос известного исторического персонажа. Он зазвучит на радиошоу, как будто вернулся в наше время специально для этого.
С «живым» голосом тоже работаем. С одной большой аутсорсинговой компанией скоро будем записывать персонализированные поздравления для новых сотрудников голосом CEO. В офисах по всему миру у них каждый день впервые выходит на работу примерно 10 человек — лично поздравить каждого CEO не сможет.
В воронке у нас «греется» много интересных проектов, в т.ч. анимация. Создателям видеоигр нужно много озвучки, и им сложно использовать известные голоса — их обладатели не готовы тратить много времени на запись. И здесь на помощь приходит наша технология — для синтеза голоса живых людей или исторических персонажей.
В целом в ближайшие месяцы нам нужно подписать как можно больше контрактов с компаниями из топ-сегмента рынка. Пока технология требует много нашего непосредственного участия, на проект может понадобиться месяц фултайм-работы нескольких человек. Поэтому мы заинтересованы в том, чтобы нашими клиентами были крупные игроки: с ними мы сможем решать действительно важные проблемы рынка и получать за эту работу достойное вознаграждение.
Когда технология станет более самостоятельной, мы планируем переходить на более широкие сегменты рынка производства контента. К тому времени у нас уже будут результаты по работе движка в реальном времени и первые интеграции с колл-центрами.
Из инвестиций у нас уже есть два ангельских чека и 120 тысяч долларов от Techstars. Мы пока на том этапе развития, когда точно оценить стартап нельзя, но любом случае наша оценка в следующем раунде финансирования будет рыночной. Мы готовимся к следующему раунду и выстраиваем коммуникацию с инвесторами.
...
Сейчас наша модель монетизации — это контракты на проектной основе. Они подразумевают использование нашего решения в рамках одного проекта на одной паре голосов. Мы совершенствуем технологию, чтобы автоматизировать процессы и часть из них отдать на сторону клиентов, для их же удобства. В будущем, когда технология станет более самостоятельной, это будет что-то вроде SaaS-модели для студий.
Ещё одна интересная модель, которую мы сейчас исследуем, — страховка. Киностудия или актёр могут застраховать физическую способность последнего записать нужные фразы в нужное время. Если наступает страховой случай — например, актёр охрип в то время, когда должна проходить постозвучка, — студия сможет использовать нашу технологию.
Для колл-центров, вероятно, подойдёт модель «per user per month». Например, оператор работает в Азии, и у него заметный акцент. На каждом таком сотруднике колл-центра мы можем зарабатывать несколько долларов в час, при этом операторы смогут говорить без акцента с Америкой или Европой. Это интересный рынок, и ценность, которую мы можем принести на него, очень высока.
...
Мы не конкурируем со стартапами, которые делают визуальную часть — это комплементарная нашей технология. В отрасли синтеза видео и анимации есть ряд классных проектов вроде Reflect, Canny AI, Syntesia, и каждый из них хорош в чём-то своём. Кто-то лучше делает «пересадку» лица, кто-то — 3D-модель, кто-то — липсинк (анимация рта, перенос артикуляции актёра озвучивания на персонажа — Startup Jedi).
Мы же делаем голос, и в его рамках занимаем достаточно узкую нишу. А именно — speech to speech, синтезируем речь из речи. Особенность и качественное отличие синтеза «speech to speech» от синтеза «text to speech» в том, что мы даём возможность создателю контента контролировать эмоциональную часть речи — то, как именно что-то сказано. Когда речь генерируется просто из текста, система может предположить, как нужно сказать те или иные фразы, но она не знает этого наверняка. Respeecher даёт возможность получить нужную эмоциональную окраску речи, со всеми смысловыми акцентами и интонациями.
Кроме того, text to speech-движки, скорее всего, не заработают в реальном времени. А даже если заработают, то не будут применимы на тех рынках, в которые мы целимся. Поскольку они будут сначала из речи человека делать текст (допуская ошибки на этом этапе), а потом синтезировать текст в голос. Это потребует значительно больше времени, чем допустимо для телефонного разговора или другой работы в реальном времени. «Text to speech» не сможет обработать незнакомый способ произношения имён, географические названия, которых нет в словарях, и просто невнятно произнесённые слова.
...
Прямо сейчас мы проходим трёхмесячную программу акселерации Techstars в Филадельфии. Путь сюда был интересным и непростым. Моё знакомство с Techstars началось со встречи с несколькими выпускниками акселератора в Киеве. А потом мы случайно познакомились в Твиттере с managing partner лондонской программы Eamonn Carey. Через несколько недель он был с визитом в Украине — мы встретились, пообщались.
К тому моменту мы уже второй раз подались в Y Combinator и на две программы Techstars — в Сингапуре и Канаде. От них долгое время не было ответа, а после нашу заявку забрала программа Techstars в Лондоне. Мы дошли до финального интервью, в процессе встретив множество интересных людей — один из них даже инвестировал в нас как бизнес-ангел. Но в лондонской программе нам отказали: у них собрался очень сильный набор, в котором было много более зрелых компаний, чем мы.
В 2011 году акселератор запустил Techstars Network — международное сетевое сообщество организаций, проводящих программы акселерации стартапов аналогично тому, как это делает сам Techstars. Сейчас по всему миру работает 47 программ Techstars. Большая часть из них — на базе собственных акселераторов. Они могут обмениваться заявками, если группа в одном «филиале» полностью укомплектована, но проект заслуживает внимания.
Таким образом, руководитель программы в Лондоне поделился нашей заявкой с Techstars в Филадельфии, и буквально через неделю мы проходили дистанционное интервью в филадельфийском отделении акселератора — нас взяли.
На интервью в Y Combinator мы тоже были, и там могли сравнить разные подходы. Если в Techstars ты проходишь серию глубоких интервью с разными людьми, то Y Combinator делает одно десятиминутное интервью. После него нам отказали с формулировкой, что Y Combinator не видит в нашем стартапе возможность построить миллиардный бизнес.
Что ж, это мнение Y Combinator, у него совсем другой подход и в обучении. Если Techstars берёт в одну программу 10–12 компаний, то Y Combinator — 160 (в наборе, в который мы не попали, было столько). Они меньше времени тратят на стартапы, больше фокусируясь на том, чтобы дать стартапам возможность привлечь финансирование, используя бренд Y Combinator. В Techstars же тебе уделяется много времени, ты получаешь массу регулярной обратного фидбека. Нужно быть готовым к тому что часто он достаточно жёсткий, но при этом весьма полезный.
Ещё один большой бонус Techstars — все стартапы, проходящие программу, получают доступ к уникальному нетворкингу. Это более чем 300 тысяч основателей стартапов, инвесторов, менторов, экспертов по всему миру. Я могу написать человеку, который прошел Techstars семь лет назад и продал компанию за кучу денег, и в 99% случаев получить оперативный ответ и помощь.
...
Программа разделена на несколько этапов — каждый из них помогает тебе достичь нужных целей. Сначала — «ориентирование на местности», за неделю ты узнаёшь, что и как здесь работает.
Потом начинается этап с названием Mentor Madness. Пару недель ты в течение дня встречаешься и созваниваешься с 10+ менторами с промежутком в 2 минуты между встречами. Перед каждым таким днем ты детально готовишься, изучаешь людей, с которыми будешь общаться, составляешь конкретные вопросы. Менторы в общих чертах уже знают, что вы делаете — до этого со своей стороны они выразили желание помогать стартапам в наборе.
Так каждый проект находит себе ряд менторов, с которыми в дальнейшем плотно работает. Среди них нужно выбрать лид-менторов, они будут проводить с тобой чуть больше времени (минимум один звонок в неделю и постоянный доступ по email). С остальными желательно просто поддерживать связь. У всех менторов очень разный бэкграунд, так что можно найти тех, кто закроет важные «дыры» в твоих навыках. Менторы — очень ценный актив акселератора.
Следующий этап — выстраивание воронки продаж. Все возможности Techstars используются для того, чтобы достать контакты нужных тебе клиентов. Нам это крайне полезно — самим достучаться до голливудских студий из Украины сложно. Эта дорога гораздо проще и короче, если идти через Techstars.
Дальше — фандрейзинг (привлечение денежных средств — Startup Jedi), и сейчас у нас проходит именно этот этап. На неделе «investors preview» в акселератор придут представители небольших венчурных фондов и бизнес-ангелы. Они могут быть заинтересованы в инвестировании, но и их, и наша главная задача — получить качественный фидбек к нашей фандрейзинговой стратегии, питчу и тому, как мы выстраиваем взаимоотношения с инвесторами в этом раунде.
Параллельно идёт активная подготовка к демо-дню. На нём будет очень много людей, а непосредственно перед этим ты будешь встречаться с инвесторами, готовыми вложить деньги в твой проект. И здесь твоя задача — закрыть раунд максимально быстро, желательно непосредственно перед демо-днём или сразу после него. Речь идёт для возможности для инвесторов войти в проекты, которые пока не появились на свободном рынке. Это один из маленьких хаков, которые используют все акселераторы, проводящие демо-дни: инвесторы понимают, что об успехах проекта на демо-дне узнает много других людей, и спешат сесть на этот поезд первыми.
P.S. Respeecher ищет в свою команду талантливых deep learning engineers. Пишите на gr+dljob@respeecher.com
Facebook: facebook.com/Startup.Jedi.ru/
Telegram: t.me/Startup_Jedi_RU
Twitter: twitter.com/startup_jedi
Комментарии