Jak zrobić transkrypcję nagrania

Prowadzi Magda Brumirska-Zielińska

Dzięki transkrypcjom osoby niesłyszące i słabosłyszące mają możliwość poznać treści, które umieszczasz na swoich filmach czy nagraniach dźwiękowych. W tym odcinku opowiemy jak stworzyć dobrą transkrypcję.

Nasza ekspertka Magda Brumirska-Zielińska podpowie Ci:

Jakie zalety ma tworzenie transkrypcji ze słuchu, półautomatycznie i automatycznie,
Do czego transkrypcja przydaje się osobom słyszącym,
Co zrobić z gotową transkrypcją.

Transkrypcja nagrania:

Justyna Mańkowska

Cześć, tu Fundacja Katarynka. Lubimy dzielić się wiedzą, dlatego w 20 minut przybliżymy ci jak praktycznie zadbać o dostępność. Pokażemy rozwiązania i dobre praktyki, z których sami korzystamy. To jest podcast o dostępności.

Magda Brumirska-Zielińska

Dzień dobry. Cześć. Ja nazywam się Magda Brumirska-Zielińska, a wy słuchacie podcastu Fundacji Katarynka, chyba że wcale go nie słuchacie tylko czytacie transkrypcję. Wszystkie odcinki naszego podcastu mają transkrypcję, dzięki którym możecie zapoznawać się z naszymi treściami nie odsłuchując ich, tylko odczytując. I w dzisiejszym podcaście chciałabym opowiedzieć wam właśnie o transkrypcjach, o tym co to jest, dlaczego są potrzebne i w jaki sposób je wykonać.

Zacznijmy od tego, po co nam transkrypcje. Przede wszystkim, dlatego że nie każdy jest w stanie usłyszeć to, co się na takim nagraniu dźwiękowym dzieje. Są to osoby głuche, które funkcjonują w sposób bezsłuchowy, ale nie tylko. To będą również osoby starsze, dla których taka transkrypcja będzie albo taką formą zastępczą dla podcastu, albo uzupełnieniem, czyli będą mogły słuchać podcastu i jeżeli czegoś nie będą pewne, będą mogły sobie sprawdzić w tej transkrypcji.

To na przykład może dotyczyć nazwisk albo adresów stron internetowych.

Kolejną grupą, która skorzysta z podcastów, będą osoby słyszące, ale nie mogące w danym momencie takiego podcastu odsłuchać, na przykład nie mają w tym momencie przy sobie słuchawek, a chcieliby posłuchać sobie tego podcastów, więc zamiast słuchać, będą go czytać. Kolejna sprawa jest taka, że dla osób widzących transkrypcja jest po prostu szybsza niż odsłuchiwanie. Średnio tempo mowy to jest mniej więcej od 120 do 150-180 słów na minutę, natomiast jeżeli chodzi o czytanie przeciętnej osoby, to będzie już od 150 do 180 słów na minutę. Osoby, które są wyćwiczone w czytaniu, szybkim czytaniu, będą miały tych słów więcej. To będzie powyżej 200 dla osoby, która często czyta, która jest przyzwyczajona do szybkiego czytania, na przykład szybciej czytają studenci przyzwyczajeni do uczenia się na sesję.

No i oczywiście istnieją też różne metody nauki szybkiego czytania, które pozwalają na wyćwiczenie sobie tej umiejętności, więc wtedy to czytanie jest jeszcze szybsze, niż te średnie 150-180 słów na minutę.

I z tego powodu transkrypcja jest szybszym sposobem na przyswojenie sobie czegoś, co powstało jako nagranie dźwiękowe. I powiem wam, że to działa nawet przy filmach.

Na YouTube’ie jest taka opcja – jeżeli film ma napisy, to bardzo często jest też możliwość otwarcia transkrypcji, czyli takiego okienka dialogowego, w którym pojawiają się wszystkie napisy z tego filmu.

Jeżeli kliknie się na odpowiedni napis, to YouTube powinien przenieść nas do odpowiadającego mu miejsca w filmie. Natomiast można również przeczytać sobie same napisy i traktować je jako właśnie taką transkrypcję z takiego filmu. Ja korzystałam z tego już kilka razy, kiedy chciałam nadrobić jakieś konferencje, które były puszczane online. Miały one napisy, trwały po kilka godzin, których ja w tamtym momencie nie mogłam poświęcić na obejrzenie całego filmu z nagraniem tej konferencji, więc szybko przelatywałam sobie wzrokiem przez cały ten zbiór napisów, które YouTube mi udostępniał.

Zapoznanie się z kilkugodzinną konferencją, w ten sposób trwało dla mnie maksymalnie kilkanaście minut.

Prawda jest taka, że dla niektórych z nas przygotowywanie transkrypcji do nagrań dźwiękowych jest po prostu obowiązkiem. Ustawa z dnia 4 kwietnia 2019 roku, o dostępności cyfrowej stron internetowych i aplikacji mobilnych podmiotów publicznych, mówi o tym, że wszystkie podmioty, które podpadają pod zapisy tej ustawy, czyli m.in. instytucje publiczne i część organizacji pozarządowych, muszą przygotowywać transkrypcję do swoich nagrań dźwiękowych.

Wymagania ustawowe bazują na standardzie WCAG, to są zasady tworzenia stron internetowych, dostępnych dla osób z różnymi potrzebami. Wytyczne dla dostępności stron internetowych znajdują się w takiej tabeli, która jest załącznikiem na końcu ustawy o dostępności cyfrowej.

Mamy w tej tabeli takie miejsce, to jest dokładnie zasada pierwsza – postrzegalność, punkt 1.2 dostępność mediów zmiennych w czasie i dalej 1, 2, 1, tylko audio oraz tylko wideo.

To nie jest dosłownie napisane w ustawie, natomiast biorąc pod uwagę to, że ustawa bazuje na standardzie WCAG, ten punkt oznacza, że transkrypcja opisowa powinna towarzyszyć każdemu nagranemu dźwiękowi oraz każdemu dźwiękowi z filmu. I tak, to właśnie oznacza, że jako podmioty, które muszą wypełniać zapisy ustawy o dostępności cyfrowej, wszystkie dźwięki jakie produkujemy i umieszczamy w internecie, muszą posiadać również transkrypcję. I dotyczy to również napisów do filmów, bo tak naprawdę z transkrypcji spokojnie można, w dość bezproblemowy sposób, przygotować także napisy.

Obowiązek tworzenia napisów wynika z troszeczkę innego miejsca w tej tabeli, która jest załącznikiem do ustawy o dostępności cyfrowej, ale również ten obowiązek mamy.

Dlatego jeżeli wiemy jak zrobić transkrypcję do nagrania dźwiękowego albo nagrania filmowego, od tego jest już bardzo prosta droga do tworzenia napisów.

Dość często w momencie, kiedy uświadamiamy sobie, że te transkrypcje musimy przygotowywać, pojawia się pytanie czy to rzeczywiście trzeba robić samemu. Czy nie ma jakiegoś sposobu na to, żeby te transkrypcje robiły się automatycznie, tak jak w angielskojęzycznych filmach na YouTubie automatycznie powstają napisy. No, więc niestety, jeżeli nie zrobimy napisów, nic nie zrobi ich za nas.

Wprawdzie i YouTube, i Facebook, i Instagram, i nawet TikTok mają już w tej chwili oprogramowanie, które tworzy napisy na żywo, które są rzeczywiście pewną formą transkrypcji, to to dotyczy w tej chwili przede wszystkim języka angielskiego. I to naprawdę nieźle tam działa.

Natomiast języka polskiego jeszcze nie ma. Nie ma na ten moment systemów, które pozwalałyby na to, żeby przygotowywać takie automatyczne transkrypcje dźwięku do filmu, który umieszczamy w internecie. Musimy tą transkrypcję przygotować samodzielnie.

Istnieje kilka sposobów robienia transkrypcji, ja sobie podzieliłam je na trzy grupy metod, czyli transkrypcja spisywana ręcznie, ze słuchu, transkrypcja, ja ją nazwałam pół maszynowa i transkrypcja maszynowa.

Już po kolei opowiadam o każdej z nich.

Jeżeli chodzi o transkrypcję spisywaną ze słuchu, spisaną ręcznie, ona ma taką zaletę, że jest najtańsza, jest w zasadzie prawie bezkosztowa, dlatego że jedynym kosztem, jest czas poświęcany na takie bardzo drobiazgowe przepisanie tego, co się słyszy, na klawiaturze, do waszego ulubionego edytora tekstu.

Mamy też tak naprawdę stuprocentową kontrolę nad tym, jak ten tekst jest przygotowany, czy nie ma w nim żadnych błędów. Od momentu, kiedy transkryptor usiądzie do nagrania, do momentu, kiedy ono zostanie skończone, mamy gwarancję, że wszystko co się wydarzy, wszystko co zostanie spisane, będzie idealnie zgodne z tym, co działo się w tej warstwie dźwiękowej. Natomiast na tym kończą się zalety metody pisania ręcznego transkrypcji.

Przede wszystkim ona zajmuje strasznie dużo czasu. Raz, że trzeba odsłuchać nagrania, a potem zrobić przerwę na to, żeby przepisać to, co się usłyszało, a potem w bardzo wielu sytuacjach odtworzyć to nagranie jeszcze raz, sprawdzić czy nie popełniło się błędów. I tak przez kilkanaście minut podcastu, kilkadziesiąt minut podcastu albo filmu. Jeżeli nagranie ma kilka godzin, tak jak to jest w przypadku konferencji albo filmów długo metrażowych, albo rejestracji wykładów, przygotowanie takiej transkrypcji zajmuje naprawdę dużo czasu, niezależnie od tego jak dobrą wprawę ma osoba robiąca tę transkrypcję.

No i dodatkową wadą jest też to, że później trzeba jeszcze tę transkrypcję rozstawić w napisach.

Druga metoda, ta, którą ja nazwałam pół maszynową, wygląda tak, że mamy program do dyktowania, który na podstawie dźwięku, w czasie rzeczywistym przygotowuje nam transkrypcję.

Czyli krótko mówiąc włączamy dźwięk, włączamy program transkrybujący, czy program do dyktowania i ten program w momencie, kiedy słyszy dźwięk, przygotowuje nam transkrypcję tego dźwięku.

Zaleta – to nadal jest darmowe. Kolejna zaleta – nie trzeba stać nad tą maszyną, kiedy ona sobie spisuje, oszczędzamy te pierwsze kilkanaście minut do kilku godzin, kiedy trzeba przygotować bezpośrednią transkrypcję tego tekstu.

Niestety wad jest więcej, dlatego że trzeba będzie dodać wszelkie znaki przystankowe, dlatego że dyktafony czy programy do dyktowania, wstawiają znaki przystankowe tylko kiedy usłyszą „kropka”, „przecinek”, „dwukropek”. Te hasła powodują, że ten program będzie wstawiał znaki przystankowe, więc to jest rzecz, którą trzeba jeszcze będzie uzupełnić w tej transkrypcji.

Druga wada jest taka, że na pewno w takich transkrypcjach pojawią się błędy. To jest tylko maszyna, która nie zna wszystkich słów, która nie zna wszystkich nazwisk. Dodatkowym problemem jest to, że sporo osób mówi zbyt niewyraźnie, żeby program dokładnie przepisał to, co jest mówione.

Szczególnie w przypadku, kiedy mamy na nagraniu osobę, która nie jest aktorem, nie jest wyćwiczonym mówcą. Możemy być pewni albo pewne, że na tym nagraniu pojawią się jakieś błędy w transkrypcji.

No i oczywiście, kiedy już mamy tę transkrypcje zrobioną i skorygowaną, to z tego jeszcze będzie trzeba zrobić napisy, jeżeli jest to transkrypcja do filmu.

Natomiast, jeżeli chodzi o ten trzeci sposób, maszynowy. Moim zdaniem on ma więcej zalet niż wad, bo robi się to samo. Do tego stopnia, że załączamy plik, każemy programowi go transkrybować i w zależności od tego jak długi jest ten nasz plik dźwiękowy czy filmowy, po kilku, kilkunastu minutach mamy gotową transkrypcję. Jest to dużo dużo szybsze niż dwie poprzednie metody. Kolejna zaleta jest taka, że przynajmniej część tych programów przygotowuje już napisy, czyli rozstawia nam te transkrypcje na tzw. timecode’ach, które pomagają później odtwarzaczowi filmowemu, także odtwarzaczowi YouTube’a czy Facebooka w puszczeniu konkretnego napisu, w konkretnym czasie.

Natomiast, jeżeli chodzi o wady, tak samo jak przy poprzednich metodach, jeżeli pojawią się jakieś trudniejsze słowa i trudniejsze nazwiska, jeżeli pojawią się osoby, które nie mówią zbyt wyraźnie, tam nadal trzeba będzie zrobić korektę. No i drugą, już taką naprawdę poważną wadą, jest to, że te metody automatyczne najczęściej kosztują.

Na dobrze, mamy więc przygotowaną transkrypcję – co z nią robimy? W momencie, kiedy transkrypcja jest gotowa i jest to transkrypcja dźwięku z filmu, pierwszą rzeczą, którą powinniśmy zrobić, jest przygotowanie napisów do tego filmu. Natomiast w przypadku, kiedy transkrypcja jest zrobiona do zwykłego nagrania dźwiękowego, takiego właśnie jak podcast, powinniśmy umieścić plik z tą transkrypcją albo na naszej stronie internetowej, albo w innym miejscu, gdzie ta transkrypcja będzie łatwo odnajdywalna dla naszego potencjalnego słuchacza, czy też raczej czytelnika. Ja polecam takie rozwiązanie, w którym mamy nasz podcast w wersji dźwiękowej umieszczony w serwisach podcastowych, do niego zawsze możemy dodać opis. W tym opisie mogą również znaleźć się linki. Najlepiej, gdyby w tym opisie był właśnie link do transkrypcji naszego podcastu. Ona może być po prostu w treści strony internetowej i to będzie chyba najwygodniejsze dla użytkowników, ale może to być też link do pobrania PDFa z treścią tej naszej transkrypcji. Zaleta, jeżeli chodzi o transkrypcję, która będzie umieszczona w treści strony, jest taka, że PDF ma konkretne rozmiary strony, a strona internetowa nie, więc jeżeli nasz potencjalny słuchacz, czytelnik będzie chciał, chciała zapoznać się z treścią naszej transkrypcji na telefonie to dużo wygodniej będzie zrobić to, jeżeli transkrypcja będzie umieszczona po prostu w treści strony internetowej, która się będzie ładnie skalowała do wielkości ekranu.

To jest już wszystko co chciałam wam dzisiaj opowiedzieć o tworzeniu transkrypcji z nagrań dźwiękowych i filmów, której przygotowywanie dla wielu instytucji i organizacji pozarządowych jest obowiązkowe, zgodnie z zapisami ustawy o dostępności cyfrowej stron internetowych i aplikacji mobilnych podmiotów publicznych. Bardzo dziękuję za wysłuchanie, serdecznie zapraszam was do odsłuchania pozostałych oraz kolejnych odcinków podcastów Fundacji Katarynka. Do usłyszenia.

Justyna Mańkowska

Jeśli chcesz dowiedzieć się więcej na temat dostępności, zacząć działać albo sprawdzić inne tematy, które poruszamy w podcaście, znajdziesz nas na Spotify lub w innym miejscu, w którym słuchasz podcastów, na YouTube’ie, czy stronie www.kulturadlawszystkich.pl. Nasze podcasty mają transkrypcję, gdybyś chciał polecić je osobie słabosłyszącej. Link znajdziesz w opisie podcastu. Polecamy ci także strony www.fundacjakataynka.pl i www.adapter.pl, czyli pierwszy portal filmowy z audiodeskrypcją, napisami i tłumaczeniem na polski język migowy. Zadanie publiczne „Kultura dla wszystkich – przygotowanie materiałów specjalistycznych” finansowane ze środków otrzymanych od gminy Wrocław.

Zadanie publiczne Kultura dla wszystkich – przygotowanie materiałów specjalistycznych” finansowane ze środków otrzymanych od Gminy Wrocław.
www.wroclaw.pl

Podcasty - Dostępność

Jak zrobić transkrypcję nagrania

Justyna Mańkowska

Magda Brumirska-Zielińska

Justyna Mańkowska

Wydarzenia - Spacer

Wydarzenia - ADAPTER

Wydarzenia - Szkolenia