КОГДА ЗАГОВОРИТ «ВЕЛИКИЙ НЕМОЙ»


На вопросы корреспондента журнала «Радио»
отвечает доктор технических наук, профессор А. А. ПИРОГОВ

Корреспондент. Андрей Андреевич, в последнее время как в СССР, так и за рубежом появилось много научных публикаций, посвященных проблеме распознавания и синтеза машинной речи. Что собой представляет эта проблема?

А. А. Пирогов. Мечта людей об управлении машинами голосом так же стара, как мечта Икара о полете к звездам. Удивительно, что сейчас, когда уже осуществляются межпланетные полеты, управление машинами голосом в большинстве практических случаев представляется, как видение будущего, но, по-видимому, будущего недалекого. Сейчас действительно во многих странах мира ученые занимаются изучением звукового (фонетического) кода речи для создания систем речевого «общения» с электронными вычислительными машинами (ЭВМ). Значительные работы в зтом направлении ведутся также в Советском Союзе.

Сущность проблемы заключается в следующем: во-первых, нужно научить машину «понимать» человеческую речь, то есть создать устройства раскодирования сигналов управления, передаваемых голосом любого человека, и во-вторых, дать машине «человеческий голос», то есть создать устройства, с помощью которых возможно было бы выводить информацию из памяти машины.

Все знают, как удобно, набрав номер 100, узнать по телефону точное московское время или по телефонному номеру 311-30-74 услышать ответ автомата, сообщающего программу демонстрации кинофильмов в московском кинотеатре «Ашхабад». Но в приведенных примерах речь идет об очень примитивных и просто решаемых задачах. ЭВМ же по плечу гораздо более сложные задачи. Самые разнообразные расчеты в торговле и сфере услуг, оперативные справки о состоянии деловых операций на предприятиях, в учреждениях и в целых отраслях промышленности — все это уже осуществляется или будет осуществляться во все более широких масштабах с помощью быстродействующих ЭВМ.

Корреспондент. Однако при решении этих и многих других задач, очевидно, удается обходиться без речевого общения с ЭВМ. Может быть разговор с машиной не является таким уж необходимым?

А. А. Пирогов. Конечно, отсутствие речевого диалога с ЭВМ не исключает возможности использования их для решения всех перечисленных задач, но существенно ограничивает применение ЭВМ. В автоматизированных системах управления (АСУ) используются вычислительные машины с большим быстродействием и объемом памяти, хранящей огромное количество информации, непрерывно обновляемой. Такие машины стоят дорого, и для многих потребителей, особенно небольших предприятий, их использование нерентабельно.

Сейчас для ввода и вывода информации в самых простых случаях используются клавишные устройства типа телетайпов (буквопечатающих телеграфных аппаратов). Но каждому потребителю информации невозможно и, конечно, не нужно устанавливать свой телетайп. Чаще всего вполне достаточно самого распространенного и дешевого оконечного устройства — стандартного телефонного аппарата, включенного в городскую или учрежденческую телефонную сеть. В этом случае, очевидно, «великий немой» — ЭВМ должна заговорить!

Корреспондент. Но записать на магнитофоне все возможные ответы, которые должна выдавать ЭВМ, по-видимому, очень трудно?

А. А. Пирогов. Думаю, что не только трудно, а попросту невозможно. Ведь таких ответов должно быть необозримое множество. Даже, если ответ ЭВМ конструировать из словаря, записанного на магнитофоне, объем его окажется чрезвычайно большим.

Для более экономичного решения этой задачи необходимо, во-первых, от словаря перейти к алфавиту— к фонетическим (звуковым) элементам речи. Этими элементами в нашей речи являются звукосочетания, образующие на звуковом уровне такую систему, которая позволяет слушателю подсознательно корректировать ошибки, возникающие при воспроизведении отдельных звуков.

Во-вторых, фонетические элементы речи можно записать в память машины наиболее экономичным способом. В этом отношении обычная магнитофонная запись является очень расточительной.

Переход от словаря к фонетическому алфавиту чрезвычайно уменьшает необходимый объем памяти машины.

Корреспондент. Андрей Андреевич, а в чем суть экономии при записи в память машины фонетических элементов речи?

А. А. Пирогов. Ответить на этот вопрос нелегко. Речь идет об очень специальной технике кодирования речи. Дело в том, что речевой сигнал содержит в своем составе сравнительно быстрые колебания от нескольких сотен до трех-четырех тысяч колебаний в секунду.

Однако существуют синтезаторы речи в устройствах, называемых вокодерами. Они представляют собой электронную модель речевого аппарата человека и успешно применяются на особо «трудных» телефонных линиях, позволяя передавать телефонный разговор даже по телеграфным системам связи.

Естественно, что фонетический алфавит, используемый ЭВМ для речевого ответа, должен представлять собой набор сигналов управления синтезатором вокодера. Тогда достаточно записывать в память ЭВМ медленные управляющие колебания, следующие с силлабическими (слоговыми) частотами, то есть такие колебания, с какими при разговоре шевелятся наши губы и язык. Понятно, что для такого узкополосного сигнала нужен гораздо меньший объем памяти, чем для речевого.

В Советском Союзе кандидатом технических наук В. Е. Муравьевым и его коллегами разработаны очень прогрессивные системы, так называемые ортогональные или гармонические вокодеры, позволяющие получать высокую разборчивость и достаточную естественность синтезированной речи. Исследованы и другие системы вокодеров, в развитие теории которых большой вклад внес заслуженный деятель науки и техники РСФСР профессор М. А. Сапожков. Вокодеры, как подтверждает опыт, позволяют экономичными способами дать ЭВМ человеческий голос.

Корреспондент. Ведутся ли подобные работы за рубежом?

А. А. Пирогов. Да, ведутся. Особенно большие успехи получены в лабораториях Белла (США) под руководством доктора Джеймса Л. Фланагана.

Корреспондент. Андрей Андреевич, Вы рассказали, как учат говорить ЭВМ, а как обстоит дело со «слухом» машины?

А. А. Пирогов. Задача управления машиной голосом на порядок сложнее, чем осуществление речевого ответа. Особенно это трудно в том случае, когда речевые сигналы управления машиной поступают по каналу телефонной связи с неизвестными характеристиками. В Советском Союзе разрабатывается новая фонетическая теория речи, согласно которой фонетические элементы речи определяются по изменению во времени звуковой энергии на различных частотах. При этом влияние характеристик телефонного канала на результаты фонетического анализа сказывается несравненно меньше. Большой вклад в развитие этой новой теории сделали профессор киевского политехнического института В. И. Куля и его сотрудники. Работает над этой проблемой и другие коллективы как в СССР, так и за рубежом.

А пока проблема диалога с машиной не решена, человек должен будет обращаться к ней на ее формализованном языке с помощью диска номеронабирателя или клавиатуры (в новых моделях) телефонного аппарата. Конечно, это менее удобно, требует некоторых навыков и, естественно, ограничивает использование ЭВМ в системах АСУ. Однако и в том случае, когда машина имеет только голос, выгода от сокращения трудовых затрат, лучшего и быстрого решения задач управления оказывается очень большой.

Корреспондент. Видимо, эти же методы должны дать большой эффект и при использовании обычной телефонной связи?

А. А. Пирогов. Развитие методов анализа и кодирования речевых сигналов безусловно позволяет достичь также коренных усовершенствований в некоторых системах телефонной связи. Вот небольшой пример. Мы произносим в среднем 10 звуков в секунду. Для кодирования каждого звука достаточно 7—8 телеграфных посылок. Таким образом, возможно будет осуществлять телефонную связь даже по телеграфному каналу, работающему со скоростью 70—80 телеграфных посылок в секунду. Правда, индивидуальные особенности голоса абонента будут при этом в значительной степени утрачены, подобно тому, как в телеграмме утрачивается почерк корреспондента.

Корреспондент. Андрей Андреевич, каковы по вашему мнению пути ускорения прогресса в создании устройств речевого общения человека с ЭВМ?

А. А. Пирогов. Я полагаю, что задача создания таких устройств является в наше время, пожалуй, одной из самых актуальных в кибернетике и технике связи. Поэтому научные исследования в этой области, на которые расходуются большие средства, должны серьезнейшим образом направляться и координироваться единым центром в масштабе страны.

Прогресс в области космических систем связи, междугородных и международных систем связи, техники опознования голосов в системах управления и так далее — все это непосредственно зависит от успехов в развитии методов анализа и синтеза звуков речи. Вот почему изучение объективных признаков фонетического кода и экономичных способов передачи и консервации речи должно считаться одной из важнейших задач современной науки.

Беседу вел Л. ВИЛЕНЧИК


РАДИО № 4, 1975 г.