Rodzaje syntezy mowy
Formantowa synteza mowy generuje najgorszą jakość mowy. Model tego syntezatora sprowadza się do zaprojektowania odpowiednich filtrów cyfrowych generujących dźwięk o charakterystycznych dla głosek częstotliwościach. Na przykład samogłoskę możemy wygenerować przepuszczając sygnał przez odpowiedni filtr, który generuje odpowiedniej częstotliwości sygnał. Sygnał ten odzwierciedla charakterystyczne formanty głoski. Generowanie odpowiednich głosek odbywa się wedle pewnych istniejących już reguł, np. autorstwa Dennisa Klatta. Omawiana synteza nazywana jest też syntezą 'by rule'.
Artykulacyjna synteza mowyInnym rodzajem syntezy mowy, opartym również na generowaniu mowy za pomocą reguł jest model artykulacyjny. Do modelowania głoski służy około 60 parametrów. Model artykulacyjny schematem przypomina budowę ludzkiego toru głosowego, przy czym jego odpowiednikiem nie jest aplikacja, a analog elektromagnetyczny. Obecnie z uwagi na skomplikowaną budowę oraz liczne problemy związane z analogiem elektromagnetycznym synteza artykulacyjna ma znaczenie symboliczne i nie jest rozpowszechniona.
Konkatenacyjna synteza mowy
Obecnie najbardziej rozpowszechnioną metodą jest konkatenacyjna synteza mowy. Model tej syntezy mowy, rozwijany od lat 70,
zyskał dużą popularność z uwagi na możliwość generowania bardzo naturalnej, dobrze brzmiącej i zrozumiałej mowy w prosty sposób.
Pierwsze syntezatory generowały mowę słabej jakości, gdyż nie brzmiała naturalnie i nie była zbytnio zrozumiała. Postęp
w dziedzinie technologii umożliwił uzyskanie lepszych efektów. Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie
ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy
jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Im mniejszy rozmiar bazy, tym szybciej
będzie syntetyzowana mowa oraz wymagania sprzętowe będą mniejsze.Jest oczywiste, że konkatenacja mowy oparta na słowach jest
bardzo niepraktyczna z powodu ilości wyrazów, jakie należy rozpatrzyć. Poza tym nagrywanie korpusu słów nie do końca ma sens,
ponieważ brakuje tu przejścia naturalnego pomiędzy jednym a drugim słowem. Konkatenacja sylab daje dość dobre rezultaty,
jednak z uwagi na ich ilość (np. w języku angielskim, 160000 podczas gdy jest tylko 40 fonemów) też wydaje się być nie
najlepszym rozwiązaniem. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy
wykorzystaniu korpusu zawierającego około 1500 jednostek. Wydaje się to być zadaniem wartym realizacji.
Konkatenacyjna syntezy mowy posiada również swoje wady. Należą do nich:
Synteza korpusowa
Stosunkowo nowym rozwiązaniem jest metoda korpusowa (unit selection). Jest to zmodyfikowana postać konkatenacyjnej
syntezy mowy. Wyjaśnię to na przykładzie korpusu difonów. W korpusie każdy z difonów był reprezentowany
tylko w jeden sposób. Natomiast metoda korpusowa zakłada, że korpus jest dużo większy, tak, że zawiera po kilka
instancji danego difonu. W korpusie mogą występować również inne jednostki akustyczne np. sylaby i trifony oraz
całe wyrazy. W korpusie takim jeden ten sam difon może wystąpić 10 lub nawet 100 razy. W celu wygenerowania mowy
obliczana jest funkcja kosztu. Funkcja ta polega na obliczeniu które połączenie z wszystkich możliwych pozwoli
uzyskać najlepszą jakość mowy. Na przykład system ma wygenerować następujące zdanie: 'Ala ma kota'. Zdanie to
jest zostanie najprawdopodobniej wygenerowane tylko za pomocą całych wyrazów, ponieważ funkcja kosztu,
w ten sposób zminimalizuje ilość błedów na sklejkach. Natomiast pojawia się pewien problem, kiedy chcemy wygenerować zdanie: 'Ala ma dużo kotów'.
Okazuje, że w korpusie nie istnieje wyraz 'kotów'. Ale istnieją odpowiednie difony i trifony za pomocą, których można
wygenerować ten wyraz. Zadaniem funkcji kosztu jest wyliczenie, w jaki sposób należy utworzyć wyraz i jakich użyć jednostek
akustycznych by brzmiał on najbardziej naturalnie.
Podsumowując, funkcja kosztu jest funkcją oszacowującą. Jej działanie sprowadza się do wyliczenia różnych możliwych sposobów wygenerowania danej wypowiedzi, przy użyciu różnych jednostek akustycznych znajdujących się w korpusie. Funkcja oszacowuje i porównuje zarazem, która wypowiedź będzie brzmiała najlepiej. Funkcja uwzględnia różne czasy trwania poszczególnych segmentów oraz ich intonację.
Warto wspomnieć, że synteza korpusowa jest również zaimplementowana w bezpłatnym systemie Festival.
Obecnie są prowadzone badania nad udoskonaleniem funkcji estymacji. Celem jest utworzenie takiej funkcji, która wybierze
najbardziej zbliżoną do mowy ludzkiej sekwencję jednostek akustycznych. Praktycznie jedynym problemem
jest rozmiar korpusu, który wynosi kilkaset MB oraz złożoność procesu obliczeniowego.
Kolejnym ważnym aspektem przy realizacji konkatenacyjnej
syntezy mowy jest wybór jednostek akustycznych. Wyróżniamy następujące jednostki akustyczne:
Wybór jednostki akustycznej do syntezy mowy ma miejsce na samym początku projektu. Drugim ważnym faktem jest uzmysłowienie sobie, jakie elementy muszą być spełnione by projekt zakończył się sukcesem. Generalnie, poniższe wnioski dotyczą przeprowadzenia nagrań z określonymi jednostkami akustycznymi. Chcąc otrzymać dobrą jakość syntezy mowy należy pamiętać o spełnieniu poniższych warunków:
Podczas przeprowadzania nagrania, każdy wyraz z daną jednostką syntezy mowy musi być wymawiany z jednakową głośnością.
Jednostki mowy powinny być wymawiane w sposób monotonny
Artykulacja musi być naturalna i bardzo czysta
Prędkość mówienia powinna być umiarkowana
Korpus warto nagrać podczas jednej sesji
Rekomendowane jest nagrywanie sygnału wysokiej jakości np. częstotliwość próbkowania conajmniej 20 kHz oraz 16 bit rozdzielczości. Zastosowanie systemów syntezy mowy
Synteza mowy ma coraz większe zastosowanie i obejmuje coraz więcej dziedzin. Przede wszystkim należy wymienić tutaj edukacje w postaci wirtualnych uniwersytetów, liczne instytucje wirtualne, w których mowa nie stanowi języka naturalnego, lecz sztucznie generowany głos. Kolejną dziedziną zastosowania syntezy mowy jest telekomunikacja. Większość rozmów, około 70%, jakie przeprowadzamy dzwoniąc do różnych serwisów informacyjnych nie wymaga dużej interaktywności. Stąd też wynika duże zainteresowanie tą dziedziną. AT&T zbudowała kilka systemów, mających zastosowanie w telekomunikacji. Jednym z nich jest informowanie o danych personalnych dzwoniącego przed odebraniem połączenia. Inny system opierał się o technologie czytania elektronicznych listów przez telefon. Systemy te dają bardzo dobrą jakość syntezy mowy, dlatego znalazły zastosowania i są dosyć popularne. Mówiące książki i zabawki to kolejna dziedzina, w której można zastosować syntezę mowy. Synteza mowy ma zastosowanie przy kontrolowaniu urządzeń samochodowych takich jak klimatyzacja, radio, elektroniczna mapa. Niezbędna pomoc w postaci korzystania z Internetu podczas podróży oraz mówiący system nawigacyjny informacje o korkach drogowych czy też informacje o stanie poszczególnych urządzeń samochodu to tylko nieliczne zastosowanie tej technologii. Synteza mowy będzie ma również duże zastosowania w dziedzinie zasobów ludzkich. Dzięki syntezie mowy ludzie niewidomi mają dostęp do wiadomości tekstowych.
Czasami informacja głosowa jest bardziej efektywna od informacji tekstowej. Szczególnie, jeśli myślimy o krótkiej informacji: alarmy, uwagi. Portale głosowe są tego najlepszym przykładem. Zadaniem portali głosowych jest symulowanie interakcji głosowej z użytkownikiem. Portale głosowe są wyposażone w wyrafinowane mechanizmy interakcji z użytkownikiem, których podstawą jest rozpoznawanie oraz konwersja tekstowej informacji pobranej z bazy danych do postaci dźwiękowej. Portal głosowy jest nie tylko wymyślnym systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych, czyli zasób ważnych informacji dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową i emitowane. Technologia IVP (Internet Voice Portal), mimo że jest jeszcze bardzo młoda, przeżywa w USA swój rozkwit. Pojawiło się szereg bogatych serwisów informacyjnych zarówno udostępniających własne zasoby, jak i korzystających z zasobów Internetu. Część z nich umożliwia także realizację podstawowej usługi internetowej, czyli dostępu do poczty elektronicznej. Portale te są powszechnie dostępne na terenie całych Stanów Zjednoczonych, a korzystanie z nich jest bezpłatne. W PJWSTK zostal stworzony pierwszy polski portal głosowy. Więcej informacji tutaj.