UTAU

UTAU to darmowy syntezator śpiewu, w którym każdy może zrobić UTAUloida na bazie swojego lub cudzego głosu (za pozwoleniem tej osoby). Jest przeznaczony tylko na komputery z systemem Windows, lecz istnieje wersja Mac OS X - UTAU-Synth, która cechuje się lepszym resamplerem do generowania śpiewu. Niestety, ta wersja programu jest płatna.

Spolszczenie By Aleyra

Różnice między UTAU a Vocaloid[]

Największa różnica pomiędzy tymi programami to możliwość stworzenia UTAUloida na bazie swojego głosu, czego w Vocaloidzie nie ma.
UTAU jest bezpłatnym programem (choć oznaczonym jako shareware), podczas gdy za oprogramowanie do Vocaloid należy zapłacić zwykle ok. 100 - 300$ (przy czym angielskie głosy są z reguły tańsze od japońskich czy koreańskich)
W UTAU prędkość generowania śpiewu w dużej mierze zależy od kilku elementów (jak wybór resamplera czy moc procesora), natomiast w Vocaloidzie wystarczy kliknąć Play i nie trzeba na nic czekać.
Format zapisu sekwencji śpiewu - w Vocaloidzie jest to .vsq lub w najnowszej wersji .vsqx, natomiast UTAU ciągle stosuje format .ust.
W Vocaloidzie można dodać muzykę i zmiksować wokal już z poziomu edytora w UTAU się tak nie da.
W Vocaloidzie dostępne jest kilka edytowalnych ścieżek, przez co można np. w tym samym czasie edytować główny wokal i harmonie, podczas gdy w UTAU można edytować tylko jedną ścieżkę
Jeśli w Vocaloidzie nuty będą na siebie nachodzić, system zaznaczy je na wyblakły kolor i trzeba będzie je poprawić, natomiast w UTAU nie da się stworzyć nachodzących na siebie nut, przez co edytowanie .ust może stać się frustrujące.
Do UTAU powstało wiele resamplerów, które zmieniają naturalność, lub brzmienie głosu. Sposób syntezy śpiewu w Vocaloidzie uniemożliwia wprawdzie napisanie dla niego odrębnego resamplera, ale jest to w zasadzie zbędne ze względu na znacznie wyższą jakość syntetyzowanego głosu niż w UTAU
Sposób wprowadzania słów: w Vocaloidzie dostępna jest biblioteka słów, którą można samodzielnie rozszerzać i to je się wpisuje - program sam scala potrzebne sample w wyraz. W UTAU natomiast użytkownik musi je samodzielnie rozbić na pojedyncze sample i w takiej formie je wprowadzić.
Do regulowania brzmienia głosu w Vocaloidzie stosuje się parametry, w UTAU zaś - flagi. Pierwsze są dostępne od razu z oznaczeniami, drugie - nie są niestety jasno przedstawione użytkownikowi i musi on sam znaleźć ich oznaczenia i dostępny zakres. (Spis flag i ich funkcji można znaleźć tutaj )
UTAU przez to, że każdy może do niego nagrać i skonfigurować własny voicebank, daje między innymi możliwość syntezy śpiewu w dowolnym języku (lista próbek do nagrania w kilkunastu językach znajduje się tutaj ). U Vocaloidów możliwości wyboru języka są ograniczone marketingowo - musi on być stosunkowo popularny, by się mógł sprzedać w wystarczającym nakładzie.
UTAU oferuje znacznie szerszą bazę dostępnych głosów w porównaniu do Vocaloid.

Mimo tych wszystkich różnic, oba te programy są bardzo podobne w obsłudze i pozwalają na stworzenie podobnych rezultatów pracy.

Typy Voicebank'ów[]

W programie UTAU rozróżniamy kilka rodzajów Voicebanków, wszystkie różnią się realistycznością, sposobem nagrywania dźwięków, oraz sposobem, którym konfigurujemy plik oto.ini

CV - najprostszy i najpopularniejszy typ VB, polega on na nagraniu pojedynczych sylab, np. "ka". Takie Voicebanki są najprostszym do nagrania i skonfigurowania, jednak między sylabami będzie słychać delikatny przeskok, co daje wrażenie mechaniczności. Pliki .ust do tego typu VB są bardzo łatwe do znalezienia.
VCV - drugi najpopularniejszy typ voicebanku. Polega na nagraniu kilka sylab w jednym dźwięku. Oprócz tego, nagrywa się gładkie przejścia pomiędzy sylabami np: Kakikukeko, oraz twarde przejścia np: Ka-ki-ku-ke-ko. Pozwala to na uzyskanie gładszego i bardziej realistycznego brzmienia, niż w przypadku CV, lecz stosuje się w nim inny zapis nut, przez co wymaga on osobnych .UST.
CV-VC - typ VB bardzo popularny do nagrywania języków innych niż japoński. Jest on także najszybszy do nagrania, gdyż polega na nagraniu ciągu i "wyłapania" z niego sylab. Nie jest zbyt dużo plików .ust w tym zapisie.
VCCV - typ voicebanku stworzony głównie z myślą o śpiewie w języku angielskim, choć dotąd ukazało się VCCV dla kilku innych języków jak hiszpański czy włoski. Po raz pierwszy pojawiło się w 2015 roku w voicebanku CZloid. Pozwala na uzyskanie płynniejszego śpiewu w tych językach ze względu na zastosowanie rozbudowanej konfiguracji oto.ini oraz nagrań ułożonych tak, by obejmowały różne brzmienia głosek w danym miejscu wyrazu.

Istnieją również inne typy banków brzmień, jednakże nie są one w powszechnym użyciu.

Resamplery[]

Resamplery to wtyczki do UTAU, które z nagranych i skonfigurowanych sampli głosu "składa" dźwięk o ustawionej w .ust długości, wysokości i efektach.

By mieć największą pewność, że resampler wygeneruje poprawnie śpiew twojego voicebanku, zalecane jest nagranie sampli w mono na częstotliwości 44100 Hz. (psst... jeżeli nie wiesz, co to oznacza, nie martw się - jeśli Google nie rozwieje twoich wątpliwości, nagraj tak, jak możesz - jeśli jeden resampler nie zadziała, inny zadziała ;) )

Resampler.exe - podstawowy resampler do UTAU, skąd wzięło się określenie na te programy. Jest on zawarty w pliku instalacyjnym. Jest to najprostszy i najpopularniejszy możliwy resampler. Każdy UTAU może z niego korzystać, bez względu na częstotliwość plików.
Resampler.dll - awaryjna wersja .exe, generująca wokal szybciej, oraz na dodatek pozwalająca nadążyć każdemu UTAUloidowi, bez względu na oto.ini, jednak generuje przy tym najwięcej błędów.
TIPS - dodaje lekki efekt szeptu i miękkości, lecz u niektórych UTAU dodaje nosowego brzmienia np: u Kasane Teto. Na wysokich tonacjach może generować szum/lekkie dzwonienie w tle. Ignoruje większość flag.
Fresamp (Frame Resampler) - resampler, który do niedawna cechował się najwolniejszym tempem generowania wokalu ze wszystkich dostępnych, lecz jego najnowsza wersja to naprawiła. Voicebankom VCV dodaje jeszcze większej realistyczności i nieco więcej mocy.
Phavoco (Phase Vocoder) - dodaje efekt Phase Vocodera, przez co voicebank nabiera mocno metalicznego brzmienia.
tn_fnds - na niektórych voicebankach dodaje więcej czystości i siły. Znany z bardzo kapryśnego działania - niekiedy albo zupełnie nie generuje dźwięku, albo go silnie zniekształca/renderuje na niewłaściwej wysokości.
world4utau (w4u) - podobne zalety i problemy co z tn_fnds, do tego nie współpracuje z samplami stereo ani ich niektórymi częśtotliwościami.
bkh01 - z odpowiednim użyciem flag potrafi stworzyć stosunkowo realistyczne brzmienie. Współpracuje najlepiej z delikatnymi głosami, na tych silniejszych mogą wystąpić dziwne trzaski i większa nosowość
UTAUgrowl - bardziej dodatek do innych resamplerów, po użyciu flagi w dodaje efekt growlu, którego siłę mozna regulować, manipulując liczbową wartością flagi (zwykle zalecane są wartości w20 - w55)
Moresampler - łączy w sobie funkcję wavtoola i resamplera i do poprawnego działania musi być ustawiony jako obydwa, charakteryzuje się stosunkowo wysoką jakością syntetyzowanego dźwięku i dodaje mu zauważalnie więcej siły. Od wersji 0.7.0 posiada możliwość automatycznego generowania oto.ini do voicebanków VCV, a od wersji 0.7.2 - również do CV-VC. Ma też własny zestaw flag i możliwość zapisywania ich konfiguracji jako łatwych do wywołania "domyślnych wyborów".

Flagi dostępne dla poszczególnych resamplerów zostaną dodane do artykułu o flagach w UTAU.