Покупка	Продажа	Межбанк	НБУ
USD	41.409	41.484	41.445 / 41.480	41.486
EUR	45.000	45.198	44.790 / 44.840	44.747
GBP	53.565	53.662	---	53.700

Синтез речи и чтение электронных книг голосом

Автоматический синтез речи – процесс генерации речевого сигнала - технология, которая дает возможность прочитать текст (документ, письмо, смс) голосом, приближенном к естественному. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.

Технология синтеза может быть востребована как в узкой предметной области, так и в широкой, или неограниченной. Для узкой области качество звучания может быть сведено к максимально естественной, за счёт компиляции заранее записанных длительных речевых фрагментов, относящихся к данной области. Примером такого синтеза (называемого макросинтезом) могут служить системы оповещения о движении поездов, применяющиеся на вокзалах больших городов в России. Гораздо сложнее сделать синтезатор речи для неограниченного текста любой предметной области. В таком случае пользователь может задать системе синтеза на произношение любую фразу или предложение.

Методы синтеза речи

Сегодня существует три основных направления синтеза: дифонный подход (дифон — это звук от середины одной фонемы до середины соседней фонемы), аллофонный подход (реализация фонемы в окружении контекста слева и справа) и технология Unit Selection (выбор звуковых элементов из речевой базы). Но каждый из них в отдельности имеет свои недостатки:

Дифонный подход - позволяет делать разборчивый, но неестественный по тембру речевой сигнал. В тембре синтезированной речи не узнается тембр диктора-донора.
Аллофонный подход — естественность голоса несколько выше, чем в дифонном подходе за счет большего набора звуковых элементов. Однако, как и в дифонном синтезе голос получается довольно роботизированным, и в нем трудно узнать голос диктора-донора.
Unit Selection — естественность тембра речи высока и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся с заметными искажениями вплоть до полного выпадения отдельных звуков.

Сайт разработчика: www.elantts.com.

Голосовые движки

На данный момент, для синтеза речи лучше всего подходит голосовые движки:

Acapela ALYONA Multimedia (Acapela Multimedia Alyona)
Acapela ELAN NIKOLAI Tempo Multimedia (Acapela ELAN Tempo Multimedia) V5.1.0.0 Russian (255 channels)
Другие русские голоса

Доп. информация: Text-to-speech (TTS) engine или движки синтеза речи - программы похожие на драйвера, предназначенны для преобразования и синтеза текста в звуковую волну. Движки синтеза речи не имеют встроенного управления и для того, чтобы Ваш компьютер заговорил, не достаточно одного TTS. Для использования TTS необходима программа синтеза (TextAloud, Cool Reader, Balabolka и т.д), которая заменяет интерфейс, позволяя работать с TTS, изменять его настройки, звучание и тембр речи, и управлять остальными возможностями.

Компания Acapela разработчики популярного русскоязычного голосового модуля Николай, выпустили новый русский, женский голосовой движок, который получил название Алёна, работает на SAPI-5 с частотой 22 КГц , по качеству синтезируемой речи Алёна намного опережает Николая, тембр голоса и интонация по мнению пользователей приятней чем у движка Катерина от ScanSoft RealSpeak.

Вместе с движком поставляется Lexicon Manager - редактор словарей, который позволяет изменять произношение слов как буквенно, так и фонетически.

Например с помощью KooBAudio, mp3book2005 и этого голосового движка - 4 часовый роман можно озвучить и перевести в mp3 за 10 минут

Acapela Alyona -- хорошо работает с такими программами как: KooBAudio 0.7.0.7, mp3book2005, Балаболка, Cool Reader...

Хороший голосовой движок! В целом действительно читает четче всех остальных русскоязычных, включая Николая, однако у последнего более приятный голос в следствии низкого тембра голоса и он меньше делает ошибки в ударениях.

Acapela Alyona HQ TTS (русский) v.2.2.20 + словарь + инструкция [часть 1]

Virus Free by KAV

Acapela Alyona HQ TTS (русский) v.2.2.20 + словарь + инструкция [часть 2]

Virus Free by KAV

Программа для чтения книг

Балаболка 2.5.0.525

Скачать Балаболка 2.5.0.525(7 Mb) Virus Free by KAV

Бесплатная и самая удачная, со всеми необходимыми функциями, возможность записи в mp3.

ToM Reader 2.73

Скачать ToM Reader 2.73(1 Mb) Virus Free by KAV

Бесплатная, привычный вид книги, наглядные закладки, возможность записи в mp3.

ToM Reader Russian программа для чтения. Главное достоинство в том, что не вмешивается в произношение голосового движка, и читает по предложениям, а не по абзацам как во многих программах, поэтому легко отслеживать чтение. Выглядит как книга в переплёте, что тоже удобно. Поддерживаемые форматы: txt, doc, rtf, htm.

MP3book2005

Скачать MP3book2005(7 Mb) Virus Free by KAV

Со всеми необходимыми функциями для редактирования словаря, записи в MP3 и чтения.

MP3book2005 программа для редактирования словаря, чтения, и записи в mp3. Редактирует словарь прекрасно, но хотелось бы, что бы вид был книжный. Поддерживаемые форматы: txt, rtf, htm, fb2.

Подготовка к установке

1. Скачиваем движок синтеза речи:

Alyona Russian 2.220 (Alyona_Russian_ID2220.rar) (148.93 Mb) - движок синтеза русской речи.
Nicolai (Acapela-Elan-TTS-Nicolai.rar) (10,7 МБ) - ещё один качественный голос.

2. Скачиваем Infovox Desktop 2.220 Engine SP3 (Acapela_Infovox_Desktop_2.220_EngineSP3.rar) (24.08 Mb) - программа управления и активации, с родной, простой читалкой, и самое главное с программой редактирования Алёниного словаря произношений - Lexicon Manager.

3. Скачиваем US English 2.220 (English_ID2220.rar) (233.13 Mb) - движок синтеза английской речи.

4. Скачиваем Читалку, программу для чтения книг (ссылки выше).

5. Скачиваем AlyonaSlovari-Alyona22k (AlyonaSlovari.rar) (1.2 Mb) - словари к Алене на 24345 слов.

7. Скачиваем MSagent.exe и ms_speech_api.exe (sintez_bib.rar) (архив-1,09 МБ) - MSagent.exe (400 KB) - агент для работы с движками распознавания и синтеза речи, ms_speech_api.exe (830 KB) - библиотеки необходимые для работы программ распознавания и синтеза речи (для Windows 7 не нужны).

Поддерживает OS: Windows XP, Windows Vista, Windows 7, 8.

Все ссылки указанные ниже на странице!

Установка и запуск

1) Установите главный управляющий элемент Infovox Desktop 2.220 Engine
2) Поверх установите голосовой движок Alyona Russian 2.220
3) Запусти License Manager и скопируй кнопкой "Copy to Clipboard" License Code
4) Запусти key.exe, вставь туда код и нажми "Make Key", чтобы сгенерировать лицензионный файл.
5) Импортируй полученный файл в License Manager нажав "Import License File"
6) Добавляем словари с помощью Lexicon Manager (Lexicon-Voice Associations - Add Lexicon... или File - Import Lexicon)

Для работы требуются дополнительные библиотеки (устанавливать в этом порядке!):

1. MSagent.exe и ms_speech_api.exe - библиотеки необходимые для работы программ распознавания и синтеза речи. (для Win 7 не нужны)
2. Acapela ELAN Tempo Multimedia V5.1.0.0 Nicolai - движок синтеза русской речи для агента.
3. ToM Reader 2.73 или MP3book2005 - программы для чтения, какая понравится.
4. Скачиваем словарь ударений для ELAN Tempo Multimedia Nikolai.

Копируем основной словарь exc_rus.txt, и abb_rus.txt - для аббревиатур, в паку C:\Program Files\Elan, а exc_rus.txt ещё и в Program Files\MP3book2005\DIC, с заменой.

MP3book2005 редактирует только exc_rus.txt, abb_rus.txt нужно править в Блокноте или Word. Это фирменные словари, ими пользуется ELAN Tempo Multimedia.

Есть ещё словарь, который встраивается в читающую программу ToM Reader (Digalo Russian Nicolai.dic). Ни в коем случае не пользуйтесь такими словарями, они только ухудшают произношение.

В ToM Reader настройки движка примерно такие:

Чтобы редактировать словарь в MP3book2005 нажимаем кнопку Словарь, и если требуется, загружаем словарь exc_rus.txt. Чтобы добавить в словарь новое слово нажимаем кнопку в верху Произношение, пишем слово в нижней строке, если оно выделено в тексте, то оно там уже будет, нажимаем кнопку Проверить, ставим курсор на правильное место ударения, нажимаем (<), и если произношение подходит нажимаем Добавить. Затем кнопку в верху Сохранить, чтобы перезаписать словарь. Сокращения, вроде звёздочек, в фирменных словарях не используются, каждое слово записывается отдельно. Это не удобно, но зато произношение качественнее.

Можно держать ToM Reader и MP3book2005 одновременно открытыми. Читаете в ToM Reader, редактируете в MP3book2005, при этом после изменения словаря ToM Reader надо перезагрузить. Можно использовать только MP3book2005. При этом надо учитывать, что ToM Reader бесплатен, а не зарегестрированный MP3book2005 имеет незначительные ограничения.

Недостатки:

Acapela ELAN Tempo Multimedia иногда читает слова написанные ПРОПИСНЫМИ буквами, по буквам.

Digalo Николай - старый вариант.

Можно взять Digalo TTS 2000 (DigaloCoreRus.exe-7,44 МБ, SAPI 4)и ToM Reader Russian. Digalo TTS 2000 это голосовой движок, который поддерживает несколько языков, в том числе русский. Он платный, но можно найти crack. ToM Reader Russian это программа, которая использует Digalo TTS 2000 для чтения книг.

Digalo TTS 2000 имеет русский голос Nicolai, он лучше голосов от других фирм, но не идеален, поэтому для него нужен словарь. Есть два варианта: использовать словарь встраиваемый в ToM Reader, и использовать словарь в самом Digalo. Первый проще, потому что использует звёздочки (*) заменяющие часть слова, но менее качественный, второй посложнее, но и качественнее.

В первом случае берём словарь Digalo Russian Nicolai.dic и копируем в папку dict в ToM Reader, которая появляется когда вы открываете ToM Reader и в настройках ставите: использовать словарь. Во втором случае процесс несколько дольше. Но преимущество его в том, что вы получите более качественное произношение, и другие программы, такие как ПРОМТ, не имеющие возможности подключения словаря, будут иметь правильное произношение, т.к. Digalo будет использовать свой словарь.

Итак, берём DigaloEditor 1.0 и распаковываем в c:\Program Files\Digalo\Digalo 2000 Russian\russian\data. Там появляются: DigaloEditor.exe – программа для редактирования словаря, abb_rus.txt и exc_rus.txt – словари. abb_rus.txt для аббревиатур, exc_rus.txt для остальных слов. DigaloEditor.exe редактирует только exc_rus.txt, abb_rus.txt нужно править в Блокноте или Word.

Теперь об особенностях редактирования в DigaloEditor.

Если вы хотите добавить слово или найти, нажимаете кнопку Добавить, и начинаете вводить, при этом автоматически происходит поиск, и если такая комбинация есть она высвечивается красным. И самое главное. При наборе слова оно уже записывается в словарь, и если выйти из него сохранив результат, оно будет в словаре. В независимости есть такое слово в словаре или нет. Поэтому если вы написали правильное слово, нажимаете кнопку сохранить. Если не правильно или такое слово уже есть, то введённую строчку удаляете кнопкой Удалить. И так сохраняете-удаляете после каждого набора. Ударение ставится знаком «<» без кавычек, пробелов должно быть равное количество с одной и с другой стороны. Например: «рыба форель рыба форе<ль». Строчка:«рыба форель рыба-форе<ль» вызовет ошибку в Digalo. Слова с изменяемым ударением в зависимости от смысла, нужно писать в словосочетании. Подвесной замок = подвесной замо<к.

Результат слышен после перезагрузки читающей программы.

Ссылки для закачки:

Alyona_Russian_ID2220.rar

Virus Free by KAV

Acapela-Elan-TTS-Nicolai.rar

Virus Free by KAV

Acapela_Infovox_Desktop_2.220_EngineSP3.rar

Virus Free by KAV

English_ID2220.rar

Virus Free by KAV

AlyonaSlovari.rar

Virus Free by KAV

sintez_bib.rar

Virus Free by KAV

espeech_v.2.3 Russian для чтения - ELAN Tempo Multimedia голосовой движок, продолжающий своё развитие от Digalo. Качество хорошее, голос мужской - Nicolai. И конечно главная составляющая – редактируемый словарь, благодаря которому произношение можно сделать почти идеальным, на сегодняшний день. Видим всеми программами, в том числе ПРОМТ.

espeech_v.2.3 Russian программа для чтения - http://native-speech.invitation.ru/description200.html - Наиболее полное описание программы. Поддерживаемые форматы: txt, doc, rtf, htm.

Инструкция по установке:

MSagent.exe и ms_speech_api.exe (архив-1,09 МБ) (ссылка ниже) - MSagent.exe (400 KB) - агент для работы с движками распознавания и синтеза речи, ms_speech_api.exe (830 KB) - библиотеки необходимые для работы программ распознавания и синтеза речи.
Acapela ELAN Tempo Multimedia V5.1.0.0 (10,7 МБ) (ссылка ниже) - движок синтеза русской речи для агента.
espeech_v.2.3 (2.08 MB) (ссылка ниже) - для меня лучшая русскоязычная что есть в интернете программа для чтения, понравится!!!.
Скачиваем словарь ударений для ELAN Tempo Multimedia Nikolai. (ссылка ниже)
Копируем основной словарь exc_rus.txt, и abb_rus.txt - для аббревиатур, в паку C:Program FilesElan, Это фирменные словари
Настройки движка примерно такие Заходите в панель управления -> речь -> выбор голоса -> пробуете!

Старые ссылки для закачки:

Acapela-Elan-TTS-SpeechCube-5_1_.1-RUS-Nicolai_MmE255.rar [

] [

]

digalo.mp3 [

] [

]

setup_espeech_v.2.3.exe [

] [

]

sintez.rar [

] [

]

slovarNicolai.rar [

] [

]

Программа синтеза русской речи Говорилка 2.0.6 и голосовые движки Digalo и SpeechCube

Сайт разработчика
Год выпуска: 2006
Версия: 2.0.6.0
Разработчик: Рязанов Антон
Платформа: Windows 9x/nt/2000/xp
Системные требования: минимум P200+ звуковая карта
Язык интерфейса: английский + русский
Таблэтка: Не требуется

Govorilka - это небольшая программа для чтения текстов голосом. Она может прочитать вслух любой текст, который Вы ей дадите на любом языке, любым установленным голосом. Запишет текст в MP3 файл.

Основные возможности программы Govorilka.

Чтение текста голосом.
Запись читаемого текста в звуковой файл (*.WAV, *.MP3) с повышенной скоростью* и с разбивкой на части заданного размера.
Регулировка скорости чтения и высоты голоса.
Автоматически прокручивает текст на экране, чтобы всегда был виден читаемый фрагмент (слежение за речью). При этом читаемый текст может подсвечиваться цветом.
Пополняемые словари произношений, которые позволяет легко корректировать произношение отдельных слов и словосочетаний.
Открывает большие файлы в DOS и Windows кодировке.
Открывает тексты из файлов Microsoft® Word и HTML.
Размер читаемого текста до 2 гигабайт.
Запоминается текст и позиция курсора при выходе из программы.

Обратите внимание на то, что текущая версия программы является тестовой (бета) - могут быть незначительные ошибки.

Чем полезна Govorilka: Govorilka бережёт Ваше зрение. С ней тексты электронных книг можно слушать, а не читать с экрана монитора. Можно узнать как звучат слова и фразы на иностранном языке. Можно быстро записать книги в MP3 файлы и слушать их на MP3 плеере. С помощью Говорилки Вы можете оценить возможности компьютерного синтеза речи и научить свой компьютер разговаривать.

Описание: Говорилка нужна тому, кто больше любит слушать тексты, чем читать их с экрана монитора или бережет свое зрение и хочет читать тексты электронных книг сидя подальше от монитора, кто хочет узнать как звучат слова и фразы на иностранном языке. Говорилка нужна всем, кто хочет научить свой компьютер говорить и кому просто любопытно узнать, как это все работает.

Дополнительные возможности: изменение скорости чтения и высоты голоса; открытие больших файлов в DOS и Windows кодировке, а также чтение текста из файлов MS Word; запиcь речи в звуковой файл (wav или mp3 ); автоматическая прокрутка текста на экране, чтобы всегда был виден читаемый фрагмент; чтение текста, находящегося в буфере обмена, возможность изменять произношение (словарь).

Доп. информация: Интерфейс у Govorilka - многоязычный, в Windows 2000/XP программа заработает сразу, а вот пользователям Windows 95/98/NT, возможно, придется загрузить некоторые недостающие файлы - text-to-speech engine и SAPI (подробности - на домашней странице).

Говорилка 2.0.6 и голосовые движки Digalo и SpeechCube

Govorilka206_Digalo_SpeechCube__torrents.ru_.rar

Virus Free by KAV

Говорилка 2.2.2 (официальная финальная версия от 09.12.2009)

Virus Free by KAV

Системы синтеза речи

Читалка - программа предназначенные для удобного чтения текстов и электронных книг с экрана компьютера. Кроме этого многие читалки умеют озвучивать тексты, используя для этого специальные программы речевого синтеза.

Хорошая читалка обладает множеством функций делающих чтение с экрана менее утомительным. Раскладка в виде книги, плавный скроллинг текста, сглаживание текста - только некоторые из инструментов применяющихся в читалках.

**ICE Book Reader** — мощная, бесплатная программа для чтения текстов голосом (читалка).
**Cool Reader** — программа для комфортного чтения книг с экрана, форматирования и конвертирования.
**UkrVox** — украинский голос для Speech API и простая программа для преобразования текстов в голос.
**Rozmovlyalka** — бесплатный синтезатор для голосового озвучивания украиноязычных текстов.
**TOM Reader Russian** — программа для комфортного чтения электронных текстов и книг на компьютере.
**Balabolka** — бесплатная программа для чтения текстовых файлов человеческим голосом.
**Govorilka** — небольшая бесплатная программа для чтения текстов с помощью движков голосового синтеза.

Для того, чтобы программы, входящие в категорию «Читалки» могли озвучивать тексты «человеческим голосом» в системе должна быть установлена библиотека SAPI (Speech Application Programming Interface, или Speech API) и голосовые движки.

Speech API

На сегодня распространены две версии Speech API: SAPI4 и SAPI5. Обе эти библиотеки несовместимы, но друг другу не мешают и могут работать на одном компьютере, поэтому для программ поддерживающих обе библиотеки рекомендуется их обе и установить (это позволит иметь большее количество голосовых движков).

В операционных системах Windows XP, Vista и 7 обычно уже есть установленные библиотеки SAPI5, поэтому нужно (но не обязательно) только установить SAPI4. Однако, возможны и такие случаи, когда возникает потребность в установлении SAPI5. Скачать и ознакомиться с особенностями установки каждой из этих библиотек можно на их страницах: Скачать SAPI.

Голосовые движки

Также, для синтеза речи, на компьютере необходимо иметь установленные голосовые движки для желаемого языка. Выше уже было указано, что библиотеки SAPI4 и SAPI5 несовместимы, поэтому каждый из голосовых движков может работать только с одной из этих библиотек. Если на вашем компьютере установлена обе библиотеки Speech API, то можно установить все голосовые движки: Скачать голосовые движки для SAPI.

Программы экранного доступа

Программа экранного доступа VIRGO 4 - это итог многолетней работы фирмы BAUM по развитию программы VIRGO, главная цель которой состоит в обеспечении комфортной работы слепых и слабовидящих пользователей с Windows. VIRGO 4 позволяет пользователю выбирать, какую информацию показывать на брайлевском дисплее, а какую произносить голосом. Слабовидящие пользователи могут также воспользоваться интегрированной в VIRGO 4 системой увеличения экрана ГАЛИЛЕО. Комплексный подход VIRGO 4, использующий брайль и речь, гибко сочетает силу обоих методов вывода информации для удобства пользователя.

MyStick является первым мобильным экранным доступом, который работает без инсталляции на всех современных компьютерах с Windows. Вставленный в свободный USB-порт компьютера, MyStick запускается автоматически и пользователь сразу может работать с компьютером.После удаления MyStick на компьютере не остается никаких файлов и не меняется никакая конфигурация. MyStick – это флэшка формата U3. С помощью MyStick слепые и слабовидящие пользователи ПК не привязаны к определенному, специально оборудованному компьютеру и могут получить доступ к любому компьютеру, работающему с Windows. Существуют два варианта MyStick: с речевым выводом и увеличением экрана и только с речевым выводом. Поставляются версии MyStick для русского, английского, немецкого, французского, шведского, норвежского и датского языков.

Программа экранного доступа Кобра 9.1 упрощает работу с Windows 7, Vista или Windows XP для слепых и слабовидящих пользователей компьютера. КОБРА объединяет все стандартные функции современной программы экранного доступа, ориентированной на пользователя. КОБРА фиксирует требования пользователя и выводит важную информацию с компьютерного монитора с помощью речи, брайля или увеличения экрана.

История

У синтеза речи долгая история, обросшая легендами. Ещё в Х веке Герберту Аврилакскому приписывали владение искусством изготовления терафима — говорящей мёртвой головы. Сделанная из бронзы, эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося. В середине XIII века монах-доминиканец Альберт фон Больштедт и английский философ и естествоиспытатель Роджер Бэкон также пытались создавать первые образцы «говорящих голов».

В конце XVIII века датский учёный Христиан Кратценштейн, действительный член Российской Академии Наук, создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а, э, и, о, у). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. В 1778 австрийский учёный Вольфганг фон Кампелен дополнил модель Кратценштейна моделями языка и губ и представил акустическо-механическую говорящую машину, способную воспроизводить определённые звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В 1837 учёный Чарльз Уитстоун (Charles Wheatstone) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. А в 1846 году Джезеф Фабер (Joseph Faber) продемонстрировал свой говорящий орган Euphonia, в котором была реализована попытка синтезирования не только речи, но и пения.

В конце XIX века знаменитый учёный Александр Белл создал собственную «говорящую» механическую модель, очень схожую по конструкции с машиной Уитстоуна. С наступлением XX века началась эра электрических машин, и учёные получили возможность использовать генераторы звуковых волн и на их базе строить алгоритмические модели.

В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года.

Первые синтезаторы речи звучали довольно неестественно, и часто едва можно было разобрать производимые ими фразы. Однако качество синтезированной речи постоянно улучшалось, и речь, генерируемую современными системами синтеза речи, порой не отличить от реальной человеческой речи. Но несмотря на успехи электронных синтезаторов речи, исследования в области создания механических синтезаторов речи по-прежнему ведутся, например, для использования в роботах-гуманоидах.

Первые системы синтеза речи на базе вычислительной техники стали появляться в конце 1950-х годов, а первый синтезатор «текст-в-речь» был создан в 1968 году.

Created/Updated: 25.05.2018

Back