Вопрос к знатокам... так как мне совсем сложно в этой теме.... :'(
Задача : обработка речевого сигнала...для выделения получения формант (чтобы провести анализ полученных данных на основе заданных критериев, например, определение людей с некоторыми заболеваниями)
Сделано:
1. Описано схема устройства - микрофон - полосные фильтры - АЦП - Анализ данных
2.обоснован выбор кепстрального анализа
3. реализация вычисление кепстра ДПФ - Log - обратное ДПФ
В итоге с кепстра нужно выделить форманты с помощью некоторого алгоритма, вот тут у меня полный ступор... :wall:
Никакой инфы найти не могу... кроме книги : Рабинера - Цифровая обработка речевых сигналов (там непонятно описано)
Если, есть возможность скиньте ссылки на рускоязычные источники, с описанием алгоритма (блок-схемы)...
Спасибо заранее огромное. :yes:
Можно писать на [Ссылки могут видеть только зарегистрированные пользователи. ]
если пугают понятия типа "фильтров Калмана-Бьюси" - тут не помочь, только самостоятельная подготовка по предмету.
или что-то еще непонято?
Pupupu
04.02.2011 23:38
Re: Речевые технологии
Не совсем понятно...причем тут... упомянутые Вами понятия...
Рускоязычной литературы по данному вопросу вообще нет...
Поэтому естественно обращение за помощью к специалистам, как практикам, так и теоретикам...
КАс. сути вопроса:
кепстральный анализ уже переиграли на обычный спектральный. А алгоритм определения формант применяем описанный ниже...
Но это мне кажется притянутым за уши, т.к. не учитывает допустим вариант с формантами буквы "И", когда вторая форманта в несколько раз больше первой...а не в 2. Сам шаг поиска формант...определяемый как равный первой форманте мне кажется не совсем верным....Непонятно как определить окно поиска формант (пока определяем как полшага назад и полшага вперед для предпологаемой форманнты).
Вообщем, может быть вы подскажите более простой-действенный способ определения формант?
Спектральный анализ не аксиома...
"Известно, что первая форманта (частота основного тона) лежит в промежутке от 50 Гц (у взрослого мужчины) до 300 Гц ( у детей и некоторых женщин). Кроме того известно, что амплитуда каждой последующей форманты ниже, чем предыдущей, а их частоты равны частоте основного тона умноженного на целое число (2 для F1, 3 для F2 и так далее).
Таким образом мы можем найти максимальное значение амплитуды сигнала на отрезке от 50 Гц до 300 Гц, после чего умножить эту частоту на 2, найти максимальное значение амплитуды в некоторой окрестности этой точки, проверить является ли она максимумом амплитуды в некоторой большей окрестности. Если это предположение верно, то мы нашли частоту второй форманты (F1). Если нет – второй форманты у сигнала нет.
Далее умножаем частоту основного тона на три и повторяем все вышеприведенные шаги для третьей форманты. Потом повторяем для всех остальных формант. Как правило, вычисляют от 4 до 6 формант."
Pupupu
22.04.2011 11:01
Алгоритмы обработки речевых сигналов
"Разработка и исследование алгоритмов обработки речевых сигналов для выделения и идентификации особых признаков речи говорящего".
Необходимо разработать алгоритмы обработки речевых сигналов и алгоритмы для определения формант. В любой подходящей программе.
1.Посоветуйте литературу (кроме Рабинера "цифровая обработка речевых сигналов") можно и на английском (я так поняла, что в русском варианте особо ничего нет).
2.Может есть готовые алгоритмы(обработки речевых сигналов и определения формант) ?
3. Может есть исходный код для обработки речи (по которому можно сделать алгоритм)?
4. Или подскажите, порядок действий после предварительной обработки речевого сигнала.
[Ссылки могут видеть только зарегистрированные пользователи. ]
detir
22.04.2011 13:47
Re: Речевые технологии
там внизу список литературы .что то мож пригодиться.
[Ссылки могут видеть только зарегистрированные пользователи. ]
[Ссылки могут видеть только зарегистрированные пользователи. ]
Pupupu
22.04.2011 14:07
Re: Речевые технологии
Не могли бы Вы еще раз первую ссылку продублировать.... Она у меня не работает(
4айник
23.04.2011 11:18
Re: Речевые технологии
Pupupu, вообще-то все работает
но по заявкам трудящихся дублирую список литературы [Ссылки могут видеть только зарегистрированные пользователи. ]
Цитата:
Список литературы:
1. Ariki Y., Tagashira S., Nishijima M. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace. // ICASSP-96.
2. Bellman R.E. Dynamic Programming, Princeton University Press, 1957.
3. BenZeghiba, M.F., Herve, В., Mariethoz, J. Speaker verification base on user customized password.// (2001).
4. Bimbot F., Blomberg M., Boves L. etc.An overview of the CAVE project research activities in speaker verification.// (2000).
5. Bourlard H. and Bengio S. Hidden Markov Models and other finite state automata for sequence processing.// (2001).
6. Bromba Biometrics Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
7. Burten D.K. Text Independent Speaker Verification Using Vector Quantization Source Coding // IEEE Trans. ASSP-35.
8. Che.W.Ch, Lin Q., Yuk D-s. Am HMM Approach to Text-prompted Speaker Verification. // ICASSP-96, 673-676.
9. De Lima Araujo, A.M. and Violaro, F., "Formant frequency estimation using a Mel-scale LPC algorithm," ITS '98 Proceedings, Volume: 1, pp. 207 -212, 1998.
10. Doval В., d'Allesandro Ch. Spectral Correlates of Glottal Waveform Models: an Analytical Study.// ICASSP-97, pp. 1295-1299.
11. Fant G. Voice Source Parameters in Continuous Speech. // ICSLP-94, pp. 1451-1454.
12. Franti P., Kivijarvi J. Random swapping technique for improving clustering in unsupervised classification. — Режим доступа:[Ссылки могут видеть только зарегистрированные пользователи. ]
13. M.Franti P., Kivijarvi J. Randomized local search algorithm for the clustering Problem.//Pattern Analysis an Application, 3(4): 358-369, 2000. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
14. Furui S. An overview of speaker recognition technology. In Proc. ESCA Workshop on Automatic Speaker Recognition Identification and Verification, pages 1-9, 1994.
15. Gray R. M. Vector quantization. // IEEE ASSP Mag., vol. 1, pp. 4-29, April 1984.
16. H. Hoge. European Speech Databases for Telephone Applications.// ICASSP-97, 1771-1775.
17. HeJ A New Codebook Traning Algorithm for NQ-based Speaker Recognition //ICASSP- 97,1091-1094.
18. Higgins A., Porter J., L.Bahler. YOHO Speaker Authentication.// Final Report, ITT Defense Communication Division, 1989. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
19. IDIAP Research Institute. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
20. Jyh-Shing Roger Jang. Audio Signal Processing and Recognition. National Tsing Hua University. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
21. Kinnunen Т., Franti P. Speaker Discriminative Weighting Method for VQ-based Speaker identification. — Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ] /tkinnu/research/pdf/Discriminative wightingMethod.pdf
22. Kinnunen Т., Karkkainen Т., Franti P. Is speech data clustered? statistical analysis of cepstral features. - Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
23. Kinnunen Т., Kilpelainen Т., Franti P. Comparison of clustering algorithms in speaker identification", Proc. LASTED Int. Conf. Signal Processing and Communications (SPC): 222-227. Marbella, Spain, 2000.
24. Kohonen Т. The Self Organization Map.// Proc. IEEE, v.78, N9, pp. 14641480.
25. Martin A., Doddington G., Kamm Т., Ordowski, M., and Przybocki, M. The DET curve in assessment of detection task performance.//1997, In Proceedings of the European Conference on Speech Technology, pages 1895-1898, Rhodes.
26. Molau, S., Pitz, M., Schluter, R. and Ney, H., "Computing Mel-frequency cepstralcoefficients on the power spectrum," Acoustics, Speech, and Signal Processing Proceedings, Volume: 1, pp. 73 -76, 2001.
27. Pandit M. and Kittler, J.Feature selection for a DTW-based speaker verification system.// 1999.
28. Ргос. Workshop Automatic Speaker Recognition, Identification, Verification. 1994 (Switzerland).
29. Rabiner L. Juang B.H. Fundamentals of Speech Recognition. N.Y.: Prentice Hall, 1993.
30. Rosenberg A. E, Parthasrathy S. Speaker Bechground Models for Connected Digit Password Speaker Verification. // ICASSP-96, 81-84.
31. Rosenberg A. E., Soong F.K. Evalution of a Vector Quantization Talker Recognition System in Text Independent and Text Dependent Modes.// Computer Speech and Language, v.2, pp. 143-157, 1987.
32. Schmidt M., Gish H. Speaker Identification via Support Vector Classifiers. ICASSP-96,105-109.
33. Shroeter J., Soudhi M. M. Techniques for Estimation Vocal-Tract Shape from Speech Signal. // IEEE Trans. SAP-2 , N1, pp. 133-150, 1994.
34. Stevens, Stanley Smith; Volkman; John; & Newman, Edwin. (1937). A scale for the measurement of the psychological magnitude of pitch. Journal of the Acoustical Society of America, 8 (3), 185-190.
35. Stuart N Wrigley, 1998. Speech Recognition by Dynamic Time Warping -Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
36. Tony Robinson. Speech Analysis. Lent Term 1998. — Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
37. Umesh, S., Cohen, L. and Nelson, D., "Frequency warping and the Mel scale" IEEE Signal Processing Letters, Volume: 9, Issue: 3, pp. 104 -107, 2002.
38. Wenndt S, Shamsunder S. Bispectrum Features for Robust Speaker Identification // ICASSP-97, 1095-1098.
39. Wong, E. and Sridharan, S. "Comparison of linear prediction cepstrum coefficients and Mel-frequency cepstrum coefficients for language identification," Intelligent Multimedia, Video and Speech Processing Proceedings, pp. 95 -98, 2001.
40. Zhenli Yu, P.c.Ching. Determination of Vocal-tract Shapes from Farmaut Frequencies Based on Perturbation Theory and Interpolation Method // ICASSP-96, pp. 369-372.
41. Ахмад X. M. Введение в цифровую обработку речевых сигналов : учеб. пособие / X. М. Ахмад, В. Ф. Жирков ; Владим. гос. ун-т. Владимир: Изд-во Владим. Гос. ун-та, 2008. - 192 с. - ISBN 5-89368-751-5.
42. Ахмад X. М. Выделение наиболее информативных характеристик речевого сигнала // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.
43. Ахмад X. М. Оптимизированный алгоритм поиска минимального наименьшего маршрута для симметричного алгоритма ДИВ в задачах распознавания дикторов // Вестник ТГТУ, т. 14, №1. Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835
44. Ахмад X. М. Параметрическое представление речевого сигнала для задачи распознавания спикера. Применение Mel частотных кепстральных коэффициентов // Математические методы в технике и технологиях - ММТТ-20. сб. трудов XX Междунар. науч. конф. в 10 т.
45. Т.6. Секция 12 /под общ. ред. В. С. Балакирева. Ярославль: Изд-во Яросл. гос. техн. ун-та, 2007. - 330с. С 66-68. ISBN 5-230-20703-5.
46. Ахмад X. М. Система идентификации говорящего методом создания кодовых книг образцов речи // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835
47. Ахмад Х.М. Обнаружение начала и конца речи в сигнале с использованием его магнитуды // Вестник ТГТУ, т. 13, №2А. — Тамбов, Изд-во ТГТУ 2007. С 449-451. ISSN 0136-5835
48. Ахмад Х.М. Определение высоты тона методом произведения гармоник спектра речевого сигнала // Вестник ТГТУ, т. 13, №3. Тамбов, Изд-во ТГТУ 2007. С 712-714. ISSN 0136-5835
49. Ахмад Х.М. Сравнительное исследование эффективности различных методов кепстрального описания речевых сигналов в задачах распознавания // Вестник ТГТУ, т. 13, №4. Тамбов, Изд-во ТГТУ 2007. С 887-891. ISSN 0136-5835
50. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: пер. с англ. / Под ред. И.Б. Фоменко. — М.: Связь, 1980.-248с.
51. Винцюк Т.К. Анализ, радпознавание и интерпретация речевых сигналов. Киев. -"Наукова думка", 1987. 264с.
52. Галунов В.И. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ].
53. Гольденберг JI. М, Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов //- М.: Радио и связь, 1990. 256 е.: ил. ISBN 5-256-00678-9
54. Горелик А. Д., Гуревич И. Б., Скрипкин В. А. Современное состояние проблемы распознавания. М. радио и связь, 1985. - с. 161.
55. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие для вузов. -3-е изд., перераб. и доп. М.: Высш. шк., 1989. - 232 с.
56. Доддингтон. Дж. Р. Распознавание дикторов: Идентификация людей по голосу // ТИИЭР, 1985,т.73,№11,с. 129-145.
57. Каппелини В., А. Дж. Константинидис, П. Эмилиани. Цифровые фильтры и их применение // Пер. с англ. — М.: Энергоатомиздат, 1983.
58. Косарев Ю. А. Естественная форма диалога с ЭВМ // Л: Машиностроение, 1989.
59. Кухарев Г.А. Биометрические системы: Методы и средства идентификации личности человека. — СПб.: Политехника, 2001. 240 с. ISBN 5-7325-0623-3.
60. Людовик Е.К., Шинкаж А.Г. Мера общности происхождения реализаций речевого сигнала // Распознавание образов (изображений и речи). -Киев: ИКАНУССР, 1980, -с.56-65.
61. Макхоул Дж. Векторное квантование при кодировании речи // -ТИИЭР, 1985,т.73, №11,с. 19-60.
62. Маркел Дж. Д. Грэй А. X Линейное предсказание речи. Пер. с англ. ЛТод ред. Ю.Н. Прохорова М Связь, 1980.
63. Марпл.-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ.-М.: Мир.- 1990.
64. Плотников В.Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. Москва, Изд-во "Машиностроение", 1988.
65. Рабинер JI.P, Гоулд Б. Теория и применение цифровой обработки сигналов // Москва, Изд-во "Мир", 1978. 848 с.
66. Рабинер JI.P, Шафер Р,В. Цифровая обработка речевых сигналов // Москва, Изд-во "Радио и связь", 1981.-496 с.
67. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу // Москва, Изд-во "Радио и связь", стр. 1-224.
68. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. // Изд-во "МЕЦНИЕРЕБА", Тбилиси, 1976, стр. 1-183.
69. Речевые технологии. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ] inf=l 181023460 .
70. С. Протасов. Pick-by-Voice — технология третьего тысячелетия. // Журнал «Склад и техника» №2/2006. — Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
71. Секунов Н. Ю. Обработка звука на PC. Т СПб.: БХВ-Петербург, 2001. ISBN 5-94157-037-6
72. Сергиенко А. Б. Цифровая обработка сигналов. СПБ.: Питер, 2003. -604с.: ил. ISBN 5-318-00666-3.
73. Системы распознавания русской речи в са11-центрах и IVR-системах . CONNECT! Мир Связи. Компьютеры и системы. Ноябрь, 2004. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
74. Солонина А. И., Улахович Д. А., Арбузов СМ. и др. Основы Цифровой обработки сигналов / СПБ.: Петербург, 2003. -576 с. ISBN: 5-94157-388.
75. Технология VoiceCom. Центр речевых технологий (ЦРТ), РФ. — Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ]
76. Хэмминг Р. В. Цифровые фильтры // Пер. с англ. — М.: Сов. Радио, 1980.
77. Центр Речевых Технологий. — Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ] .
78. Центр речевых технологий. Российские речевые технологии. Новые успехи и новые достижения. Режим доступа: [Ссылки могут видеть только зарегистрированные пользователи. ] 41 .pdf.
79. Вычисление параметров реч. сигнала
80. Mel — частотные коэффициенты (MFC)1. Переходы через нуль (ZC)1. Регистрация (Training)1. Идентификация (Testing)
81. Матрица признаков (Образцы)1. DTW1. Матрица признаков (Новые)
82. Результаты (Принятое решение)1. Алгоритмы обучения
83. Создание кодовой книги спикера (ККС)
84. Создание основной ККС и вычисление весовых коэффициентовкнига
85. Алгоритм вычисл, Весовых коэф.1. Алгоритмы тестирования
86. Высказывание (Реч. сигнал) для тестирования1. HPF1. Сегментация1. Вычисление КК
87. Матрица весовых коэффициентов22.
88. Алгоритм сходства (Подобия)о 11. Выбор max1. Идентификация1. К>
detir
23.04.2011 23:19
Re: Речевые технологии
одно не понял помогло или нет? если да то просьба указывать что.
nikto
16.07.2014 19:39
Речевые технологии
Смотрите ОПИСАНИЕ(!!!) [Ссылки могут видеть только зарегистрированные пользователи. ]