Как использовать расшифровку видео на Ютубе для написания статей
Speech-to-text vol.2: субтитры YouTube
Сибирикс
Speech-to-text vol.2:
субтитры YouTube
Как использовать расшифровку видео на Ютубе для написания статей
Мы уже как-то описывали в блоге наши эксперименты с сервисами для превращения аудиозаписей в текст — результаты были сомнительными. На одной из конференций услышали от коллег, будто с субтитрами Ютуба перевести доклад спикера из видео/аудио в текст — раз плюнуть. Ну-ну. Давайте проверим :)
Об инструменте

В основе автоматического создания субтитров лежит технология распознавания речи с помощью алгоритмов машинного обучения — из-за этого качество субтитров бывает разным.

Специалисты Ютуба совершенствуют технологию, но порой речь всё же распознается неверно. Обычно ошибки связаны с неправильным произношением, акцентом или диалектом говорящего, а также с посторонними шумами. Хорошая новость: субтитры к вашему видео можно просмотреть и отредактировать.

Субтитры доступны не для всех видео — вот несколько причин их отсутствия:

  • звуковая дорожка сложная и долго обрабатывается;
  • для выбранного языка нет функции автоматического создания субтитров;
  • видео слишком длинное;
  • у видео низкое качество звука или оно содержит речь, не распознаваемую YouTube;
  • видео начинается с длительного эпизода без звука;
  • говорят сразу несколько человек.

А теперь — эксперимент.
Дано
Возьмём три видео с нашего ютуб-канала:

  1. Владимир Завертайлов читает лекцию о хвостовых рисках, звук — микрофон-петличка;
  2. Владимир Завертайлов рассказывает о микропереключениях на планерке — звук и видео с мобильного телефона;
  3. Технический директор Иван рассказывает о технических премудростях — много непонятных слов, а звук с микрофона-петлички.

Чтобы включить субтитры у видео Ютуба, нажмите сюда:
С временными метками проще ориентироваться, но для копирования текста их лучше отключить:
Поехали
Видео 1
Вводные полторы минуты: спикер рассказывает анекдот в тему и подводит аудиторию к предмету обсуждения — хвостовым рискам.
Что получаем на выходе от субтитров
тимка 1 тем к 1 для начала небольшой
анекдот приходит мужик в баню забыл
полотенца шарик глазами по бане чем бой
теряться видит висит табличка
занавесками не потеряться облике геи
будет то что мы сейчас с вами разберем
это к тому как надо не делать, а не так
как надо делать и та вещь которую мы с
вами посмотрим за нее больно больно бьют
вот тем не менее она в природе
существует из-за нее собственно
произошел прошлый экономический кризис и
наверное будущий случится еще ни один из
за нее случается очень очень много много
дерьма и поэтому
поскольку это явление в природе
существуют нужно его знать нужно его
иметь ввиду и нужно с ним бороться
как вы думаете про что речь системное
зависание прощались
они там дальновидность такая там
дальновидности очень хорошо очень хорошо
дальновидность очень прям прям на уровне
хвостовые риски
Как звучало на самом деле
Темка первая. Темка первая. Для начала небольшой анекдот. Приходит мужик в баню. Забыл полотенце, шарит глазами, чем бы вытереться. Видит — висит табличка «Занавесками не вытираться!». Думает: «О, бля, идея!». То, что мы сейчас с вами разберем, это к тому как надо НЕ делать, а не так, как надо делать.

И та вещь, которую мы с вами посмотрим, за нее больно-больно бьют. Вот. Тем не менее, она в природе существует. Из-за нее, собственно, произошел прошлый экономический кризис и, наверное, будущий случится еще ни один. Из-за нее случается очень-очень много-много дерьма. И поэтому, поскольку это явление в природе существует, нужно его знать, нужно его иметь в виду и нужно с ним бороться.

Как вы думаете, про что речь? Упс, системное зависание. Про что речь? [Голос из зала: недальновидность?]. О, не, там дальновидность такая, там дальновидности очень хорошо, очень хорошо с дальновидностью, очень прям, прям на уровне. Хвостовые риски.
Проблема 1 — коверканье и слова-связки

То, как вы говорите, и то, как вы пишете, сильно разнится: появляются конструкции-связки, вы задаете вопросы аудитории, повторяете фразы для смысловых акцентов. Здесь они тоже есть. Но при этом многие адекватные предложения превращаются в очень забавные.
«Темка первая. Темка первая. … «О, бля, идея!» превращается в «тимка 1 тем к1… облике геи»
И такие перлы могут встречаться на протяжении всего доклада. Победить их можно, только переслушивая эти странные куски и переписывая на слух. А встречается всякое:
«На деплое» превратилось в «на тепло» (ну не знает Ютуб таких слов!), а фраза «окей, на деплое сейчас всё…» превратилась в «kennedy половине плавит сейчас все» (кто там убил Кэннеди?)
Здесь встречается слово «правильно», которое спикер использует для контакта с аудиторией. А фраза «предыстория к этим спринтам…» превратилась в «предыстория детям с принтом».
Проблема 2 — Ютуб не знает специфических терминов

Мы тут активно обсуждаем MVP, скоупы и ещё бог весть что на своём специфическом сленге, а Ютуб это видит по-своему (надо сказать, кое-что расшифровать верно ему порой удается).
Про «скоуп» работ Ютуб не в курсе, а вот MVP распознал.
А здесь — уже не смог его услышать в фразе «наше MVP»
Проблема 3 — аудиторию часто не слышно

Спикеры любят задавать вопросы в зал. Ладно, когда они потом сами же на них отвечают — это полбеды. Но бывает, что замечания кого-то из зала нужно добавить в статью. И здесь приходится включать активное слушание, потому что Ютуб считает, что голос этого человека — музыка.
А если он всё-таки распознает голос из зала, то на выходе получается иногда совсем не то, что говорят :)
На самом деле: «Знаешь, на деплое иногда бывает —
когда вы там на своей стороне запустите…»

Проблема 4 — нет знаков препинания и обозначения пауз

Может быть, мы слишком многого хотим от бездушной машины, но читать куском сгенерированный Ютубом текст не очень-то просто. Да, по ходу редактуры добавить запятые, точки, тире и прочий синтаксис несложно. Но минуте на 20-й начинает казаться, что проще было бы переписать всё предложение сразу и полностью, чем перемещаться между словами и ставить знаки пунктуации, а какие-то слова править с большой буквы.


Проблема 5 — это не так быстро, как кажется

Лекция о хвостовых рисках ради эксперимента была преобразована нами в статью (ждите в блоге). Но трудозатраты колоссальны: при длине видео в 1 час 16 минут мы потратили на доведение материала до чистового варианта 8 часов. 8, Карл! Да, там пришлось рисовать кое-какие схемы по ходу дела. Отнимите 1,5 часа. Но останется 6,5. Почему так?

  • итерация 1: скопировать текст из субтитров и разбить на предложения (не нравится ручками — в помощь сервис DownSub);

  • итерация 2: переслушать куски со странными словами (а по факту — переслушать всё видео) на 2−3 раза;

  • итерация 3: избавиться от фраз-связок, риторических вопросов и прочего словесного мусора;

  • итерация 4: добавить редакторской магии, чтобы у материала появилась структура — заголовки, подзаголовки и врезки;

  • итерация 5: вычитать на 2−3 раза и отшлифовать, чтобы было круто.
Евгений Бартов
Если говорить о подготовке публикации под ключ на базе транскрибации, то там 80% работы делается ручками. Автосабы с ютюба — это процентов 15−20 от всей работы.

Очень много времени уходит на редактирование, особенно, когда у спикера масса сорняков в речи, оговорок, или он плохо подготовился к выступлению и заговаривается. Приходится поток сознания превращать в очищенную и отфильтрованную мысль.

Иногда спикер забывает проговаривать свои действия — тогда приходится как-то дописывать ручками то, что он забывает озвучивать (например, он переходит между диалоговыми окнами, что-то там пишет, задает команды — зрители это видят, а читатели нет).

Плюс, когда текст более или менее сформировался — его надо правильно разметить и наложить на него навигацию, иначе будет простыня. Надо, чтобы текстом было удобно пользоваться: а значит, нужны заголовки, ключевые слова, оглавление, перекрестные ссылки (в т.ч. и на рекламируемые заказчиком продукты). Если это программный код — значит, еще и вставки кода надо разметить с учетом языка программирования, добавить скриншоты и не забыть придумать к ним подписи.

Другой важный момент: нужно, чтобы транскрибатор хорошо понимал предмет выступления, иначе он может перепутать, например, server с service или java с jabber — такие прецеденты были.

А в остальном — ничего сложного :)
Евгений поделился с нами типичными ошибками транскрибаторов — в топе:
  • неряшливые скриншоты;
  • жирный шрифт там, где не нужно;
  • ошибки в пунктуации;
  • витиеватые формулировки;
  • слепое доверие автосубтитрам;
  • отсутствие сверок с видео;
  • запись бесполезных слов и действий.
Видео 2 и 3
Мы проверили два других наших видео — проблемы те же: непонимание терминов, искажения смысла слов, «музыка» вместо фраз аудитории и всё прочее-прочее-прочее. Ради интереса потыкали несколько чужих видео в «предложках»: у кого-то результат подобный нашему, у кого-то — лучше (дело может быть в качестве звука, или в том, что субтитры уже отредактировали).
«Есть такая фигня, в литературе не описано…» превратилось в «есть ли 5 дня»,
а «Или запустить, господи, 1С-ку, выставить счёт…» стало «…процесс либо господи один с кулачок выстоять…».
«Битрикс к чему относится: к фронту или к бэку?!» — бэкенд у Ютуба превратился в соус bbq :)
И таких примеров можно насобирать миллион.
Павел Мищенко
Управляющий партнер Runetlex, ведущий юридического подкаста на Youtube
Преобразование видео в статью требует существенных усилий. Огрехи структуры и языка в видео не так заметны, их можно «прикрыть» живостью подачи, интонацией, визуальным рядом. Когда контент переводишь в текстовый формат, то все вышеуказанные проблемы становятся очень явными. Приходится делать не просто расшифровку, а литературную адаптацию. Это называется хитрым словом «транскрибация».

Свои видео с канала Runetlex Tv я сначала отдаю транскрибаторам, а потом вношу в расшифрованный и адаптированный вариант правки самостоятельно, потому что какие-то моменты транскрибатор может упустить/не понять/неправильно истолковать.
Вердикт
Пользоваться — можно. Но если вы ждали магии в стиле Ctrl+C — Ctrl+V, то очень вряд ли. Субтитры помогают отчасти: чтобы не перенабирать весь текст ручками (хотя иногда ты срываешься и на их основе просто тупо заново пишешь предложение). Огромный плюс — не приходится останавливать видео после каждого предложения, чтобы записать его вручную. Поэтому юзайте на здоровье :)