UTAU to darmowy syntezator śpiewu, w którym każdy może zrobić UTAUloida na bazie swojego lub cudzego głosu (za pozwoleniem tej osoby). Jest przeznaczony tylko na komputery z systemem Windows, lecz istnieje wersja Mac OS X - UTAU-Synth, która cechuje się lepszym resamplerem do generowania śpiewu. Niestety, ta wersja programu jest płatna.
Spolszczenie By Aleyra
Różnice między UTAU a Vocaloid[]
- Największa różnica pomiędzy tymi programami to możliwość stworzenia UTAUloida na bazie swojego głosu, czego w Vocaloidzie nie ma.
- UTAU jest bezpłatnym programem (choć oznaczonym jako shareware), podczas gdy za oprogramowanie do Vocaloid należy zapłacić zwykle ok. 100 - 300$ (przy czym angielskie głosy są z reguły tańsze od japońskich czy koreańskich)
- W UTAU prędkość generowania śpiewu w dużej mierze zależy od kilku elementów (jak wybór resamplera czy moc procesora), natomiast w Vocaloidzie wystarczy kliknąć Play i nie trzeba na nic czekać.
- Format zapisu sekwencji śpiewu - w Vocaloidzie jest to .vsq lub w najnowszej wersji .vsqx, natomiast UTAU ciągle stosuje format .ust.
- W Vocaloidzie można dodać muzykę i zmiksować wokal już z poziomu edytora w UTAU się tak nie da.
- W Vocaloidzie dostępne jest kilka edytowalnych ścieżek, przez co można np. w tym samym czasie edytować główny wokal i harmonie, podczas gdy w UTAU można edytować tylko jedną ścieżkę
- Jeśli w Vocaloidzie nuty będą na siebie nachodzić, system zaznaczy je na wyblakły kolor i trzeba będzie je poprawić, natomiast w UTAU nie da się stworzyć nachodzących na siebie nut, przez co edytowanie .ust może stać się frustrujące.
- Do UTAU powstało wiele resamplerów, które zmieniają naturalność, lub brzmienie głosu. Sposób syntezy śpiewu w Vocaloidzie uniemożliwia wprawdzie napisanie dla niego odrębnego resamplera, ale jest to w zasadzie zbędne ze względu na znacznie wyższą jakość syntetyzowanego głosu niż w UTAU
- Sposób wprowadzania słów: w Vocaloidzie dostępna jest biblioteka słów, którą można samodzielnie rozszerzać i to je się wpisuje - program sam scala potrzebne sample w wyraz. W UTAU natomiast użytkownik musi je samodzielnie rozbić na pojedyncze sample i w takiej formie je wprowadzić.
- Do regulowania brzmienia głosu w Vocaloidzie stosuje się parametry, w UTAU zaś - flagi. Pierwsze są dostępne od razu z oznaczeniami, drugie - nie są niestety jasno przedstawione użytkownikowi i musi on sam znaleźć ich oznaczenia i dostępny zakres. (Spis flag i ich funkcji można znaleźć tutaj )
- UTAU przez to, że każdy może do niego nagrać i skonfigurować własny voicebank, daje między innymi możliwość syntezy śpiewu w dowolnym języku (lista próbek do nagrania w kilkunastu językach znajduje się tutaj ). U Vocaloidów możliwości wyboru języka są ograniczone marketingowo - musi on być stosunkowo popularny, by się mógł sprzedać w wystarczającym nakładzie.
- UTAU oferuje znacznie szerszą bazę dostępnych głosów w porównaniu do Vocaloid.
Mimo tych wszystkich różnic, oba te programy są bardzo podobne w obsłudze i pozwalają na stworzenie podobnych rezultatów pracy.
Typy Voicebank'ów[]
W programie UTAU rozróżniamy kilka rodzajów Voicebanków, wszystkie różnią się realistycznością, sposobem nagrywania dźwięków, oraz sposobem, którym konfigurujemy plik oto.ini
- CV - najprostszy i najpopularniejszy typ VB, polega on na nagraniu pojedynczych sylab, np. "ka". Takie Voicebanki są najprostszym do nagrania i skonfigurowania, jednak między sylabami będzie słychać delikatny przeskok, co daje wrażenie mechaniczności. Pliki .ust do tego typu VB są bardzo łatwe do znalezienia.
- VCV - drugi najpopularniejszy typ voicebanku. Polega na nagraniu kilka sylab w jednym dźwięku. Oprócz tego, nagrywa się gładkie przejścia pomiędzy sylabami np: Kakikukeko, oraz twarde przejścia np: Ka-ki-ku-ke-ko. Pozwala to na uzyskanie gładszego i bardziej realistycznego brzmienia, niż w przypadku CV, lecz stosuje się w nim inny zapis nut, przez co wymaga on osobnych .UST.
- CV-VC - typ VB bardzo popularny do nagrywania języków innych niż japoński. Jest on także najszybszy do nagrania, gdyż polega na nagraniu ciągu i "wyłapania" z niego sylab. Nie jest zbyt dużo plików .ust w tym zapisie.
- VCCV - typ voicebanku stworzony głównie z myślą o śpiewie w języku angielskim, choć dotąd ukazało się VCCV dla kilku innych języków jak hiszpański czy włoski. Po raz pierwszy pojawiło się w 2015 roku w voicebanku CZloid. Pozwala na uzyskanie płynniejszego śpiewu w tych językach ze względu na zastosowanie rozbudowanej konfiguracji oto.ini oraz nagrań ułożonych tak, by obejmowały różne brzmienia głosek w danym miejscu wyrazu.
Istnieją również inne typy banków brzmień, jednakże nie są one w powszechnym użyciu.
Resamplery[]
Resamplery to wtyczki do UTAU, które z nagranych i skonfigurowanych sampli głosu "składa" dźwięk o ustawionej w .ust długości, wysokości i efektach.
By mieć największą pewność, że resampler wygeneruje poprawnie śpiew twojego voicebanku, zalecane jest nagranie sampli w mono na częstotliwości 44100 Hz. (psst... jeżeli nie wiesz, co to oznacza, nie martw się - jeśli Google nie rozwieje twoich wątpliwości, nagraj tak, jak możesz - jeśli jeden resampler nie zadziała, inny zadziała ;) )
- Resampler.exe - podstawowy resampler do UTAU, skąd wzięło się określenie na te programy. Jest on zawarty w pliku instalacyjnym. Jest to najprostszy i najpopularniejszy możliwy resampler. Każdy UTAU może z niego korzystać, bez względu na częstotliwość plików.
- Resampler.dll - awaryjna wersja .exe, generująca wokal szybciej, oraz na dodatek pozwalająca nadążyć każdemu UTAUloidowi, bez względu na oto.ini, jednak generuje przy tym najwięcej błędów.
- TIPS - dodaje lekki efekt szeptu i miękkości, lecz u niektórych UTAU dodaje nosowego brzmienia np: u Kasane Teto. Na wysokich tonacjach może generować szum/lekkie dzwonienie w tle. Ignoruje większość flag.
- Fresamp (Frame Resampler) - resampler, który do niedawna cechował się najwolniejszym tempem generowania wokalu ze wszystkich dostępnych, lecz jego najnowsza wersja to naprawiła. Voicebankom VCV dodaje jeszcze większej realistyczności i nieco więcej mocy.
- Phavoco (Phase Vocoder) - dodaje efekt Phase Vocodera, przez co voicebank nabiera mocno metalicznego brzmienia.
- tn_fnds - na niektórych voicebankach dodaje więcej czystości i siły. Znany z bardzo kapryśnego działania - niekiedy albo zupełnie nie generuje dźwięku, albo go silnie zniekształca/renderuje na niewłaściwej wysokości.
- world4utau (w4u) - podobne zalety i problemy co z tn_fnds, do tego nie współpracuje z samplami stereo ani ich niektórymi częśtotliwościami.
- bkh01 - z odpowiednim użyciem flag potrafi stworzyć stosunkowo realistyczne brzmienie. Współpracuje najlepiej z delikatnymi głosami, na tych silniejszych mogą wystąpić dziwne trzaski i większa nosowość
- UTAUgrowl - bardziej dodatek do innych resamplerów, po użyciu flagi w dodaje efekt growlu, którego siłę mozna regulować, manipulując liczbową wartością flagi (zwykle zalecane są wartości w20 - w55)
- Moresampler - łączy w sobie funkcję wavtoola i resamplera i do poprawnego działania musi być ustawiony jako obydwa, charakteryzuje się stosunkowo wysoką jakością syntetyzowanego dźwięku i dodaje mu zauważalnie więcej siły. Od wersji 0.7.0 posiada możliwość automatycznego generowania oto.ini do voicebanków VCV, a od wersji 0.7.2 - również do CV-VC. Ma też własny zestaw flag i możliwość zapisywania ich konfiguracji jako łatwych do wywołania "domyślnych wyborów".
Flagi dostępne dla poszczególnych resamplerów zostaną dodane do artykułu o flagach w UTAU.