Jacek Zadrożny. Sztuczna inteligencja w dostępności

Gość: Jacek Zadrożny

Rozmawia: Magda Brumirska-Zielińska

Magda Brumirska-Zielińska rozmawia z Jackiem Zadrożnym o sztucznej inteligencji i jej zastosowaniach w dostępności. Dowiecie się, jak AI może wspierać osoby z niepełnosprawnościami – od syntezy mowy i transkrypcji, przez teksty alternatywne, aż po audiodeskrypcje.

Magda i Jacek wskazują na wyzwania, przed jakimi stoi technologia sztucznych inteligencji, takich jak tłumaczenie języka migowego czy projektowanie dostępnej architektury. Podkreślają, że choć AI ułatwia życie, nie zastąpi człowieka, a jej użycie wymaga cierpliwości i dopasowania do indywidualnych potrzeb.

Ciekawi cię, jak technologia wpływa na dostępność w praktyce? Posłuchaj tej rozmowy!

W tym odcinku:

Czym jest sztuczna inteligencja i jak może wspierać dostępność.
Jakie narzędzia i potrzeby mogą być wspierane przez sztuczną inteligencję: od generowania tekstów alternatywnych po audiodeskrypcję.
Wyzwania w maszynowym tłumaczeniu języka migowego i rozpoznawaniu gestów.
Możliwości AI w analizie architektury i poprawie dostępności budynków.

Przydatne linki:

Media Jacka Zadrożnego:

Dostępnik https://dostepnik.substack.com/

Konferencja Automatica11y https://automatically.pl/

Ally. Asystentka koordynatora dostępności https://jaczad-ally.hf.space/

Hugging Face https://huggingface.co/jaczad

LinkedIn https://pl.linkedin.com/in/jaczad

Narzędzia korzystające z AI:

Chat GPT https://chatgpt.com/

Beey https://beey.io

Whisper https://openai.com/index/whisper/

Jupyter Notebook https://jupyter.org/

Be My Eyes https://www.bemyeyes.com/language/polish

Be My AI https://www.bemyeyes.com/blog/introducing-be-my-ai

Tłumacz Google https://translate.google.pl/

Komentarz do filmu w stylu Davida Attenborough https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding

Transkrypcja podcastu:

Justyna Mańkowska-Kaczmarek

Cześć! Tu Fundacja Katarynka. Działamy od 2010 roku, by zmieniać świat na bardziej dostępny.

Zapraszamy cię na spotkania z praktykami, dostępności, jej odbiorcami i ludźmi kultury.

To jest podcast o dostępności.

Magda Brumirska-Zielińska

Dzień dobry wszystkim witamy w kolejnym odcinku Podcastu o Dostępności. Ja nazywam się Magda Brumirska-Zielińska, a moim gościem jest dzisiaj Jacek Zadrożny.

Jacek Zadrożny

Dzień dobry, dzień dobry, Magda.

Magda Brumirska-Zielińska

Dzisiaj porozmawiamy o czymś trochę innym, niż w naszych ostatnich odcinkach, dlatego że będziemy z Jackiem rozmawiać o technologii i to o bardzo konkretnym fragmencie nowoczesnej technologii. Jacek, ty jesteś specjalistą od dostępności cyfrowej, a może opisujesz sam siebie w jakiś inny sposób?

Jacek Zadrożny

No rzeczywiście, ja teraz piszę o sobie raczej „ekspert do spraw dostępności”, kiedyś głównie cyfrowej, a teraz zagłębiający się w różne obszary dostępności architektonicznej, informacyjno-komunikacyjnej. Przy czym w tych kolejnych oczywiście nie czuję się ekspertem jeszcze, natomiast dużo wiem, bo się nauczyłem między innymi przy tych rzeczach, które dłubię. W związku z tym, z czym się chyba spotkaliśmy, z tym tematem.

Magda Brumirska-Zielińska

Tak, bo naszym tematem konkretnie będzie dzisiaj sztuczna inteligencja i możliwości jej wykorzystania w dostępności, szczególnie dla osób z niepełnosprawnościami.

Jacek Zadrożny

Tak i to ten temat jest dla mnie szczególnie bliski. Pół roku temu zorganizowałem takie wydarzenie, AutomaticA11y (czyt. Automatikali), które właśnie dotyczyło tego styku sztucznej inteligencji z dostępnością. No i planuję, że w maju przyszłego roku również takie się wydarzy, bo dzieje się bardzo dużo, bardzo szybko i warto nadążać z takimi tematami.

Magda Brumirska-Zielińska

Pierwsza edycja AutomaticA11y, pomimo tego, że mocno siedziała w temacie właśnie sztucznej inteligencji, była też bardzo rozległa, jeżeli chodzi o tematykę. Bo były tam osoby, które opowiadały o możliwościach tworzenia tekstów łatwych w czytaniu i rozumieniu, o możliwościach syntetyzowania głosu na podstawie posiadanych już próbek, ale też np. specjaliści od e-commerce, którzy opowiadali o implementacji tego tematu w świecie sprzedażowym. Jaki jest plan na kolejny rok?

Jacek Zadrożny

Moim celem jest to, żeby trochę bardziej uderzyć w tą część dostępności, która tam była mniej reprezentowaną. No, prawie wcale nie była, tak naprawdę, reprezentowana. Czyli dostępność architektoniczna. Ale oczywiście, te pozostałe obszary dostępności również będą pokazywane, w tym także takie nieoczywiste.

Oprócz tego spodziewam się, że będzie też Filip Dzięcioł, którego prezentacja się bardzo podobała. Filip chyba zresztą też się Paniom bardzo podobał. I on ustalał na razie ze mną temat, ale spotkałem go w Poznaniu, i on tam zainteresował się różnymi obszarami, o których w ogóle nie wiedział. Na przykład rozpoznawaniem i generowaniem języka migowego. No więc zobaczymy, co nam z tego wszystkiego powychodzi. Na razie jeszcze jesteśmy na bardzo wczesnym etapie organizowania, więc jak będzie całościowo wyglądał cały projekt AutomaticA11y, to jeszcze nie wiem. To się dopiero okaże, pewnie za jakieś trzy miesiące.

Magda Brumirska-Zielińska

Po tej pierwszej konferencji, po pierwszym AutomaticA11y, ja miałam mnóstwo pytań, takich po prostu do świata. Czy rzeczywiście kiedykolwiek uda się zrobić tłumacza migowego wspomaganego przez sztuczną inteligencję? Czy rzeczywiście sztuczna inteligencja może wspomagać dostępność architektoniczną? Ja myślę Jacku, że do tych różnych pytań i różnych sposobów zastosowania sztucznych inteligencji przejdziemy za moment.

Bo co my w zasadzie tutaj rozumiemy jako sztuczne inteligencje? Może od tego powinniśmy zacząć. Nie będziemy wchodzić, oczywiście, w bardzo techniczne szczegóły, tłumaczyć, na czym to wszystko polega. Ale jak ty byś zdefiniował sztuczne inteligencje, szczególnie te, które pracują dla dostępności?

Jacek Zadrożny

W zasadzie to jest tak, że definicja sztucznej inteligencji jest dość prosta. To jest oprogramowanie, które potrafi wykonywać czynności zamiast człowieka. W związku z tym już dawno tak naprawdę mieliśmy dostęp do narzędzi sztucznej inteligencji. Na przykład, kiedy korzystaliśmy z oprogramowania do rozpoznawania tekstu.

Z syntezy mowy też korzystamy już od bardzo, bardzo wielu lat. Być może ludzie o tym nie wiedzą, ale pierwszy syntezator mowy powstał jeszcze przed II wojną światową. To są wszystko rzeczy, które możemy spokojnie nazwać sztuczną inteligencją. Choć wiem, że tak naprawdę większość ludzi pod tym pojęciem rozumie to, co się teraz dzieje od dwóch lat, czyli tak zwana generated… Nie wiem, jak to po polsku się mówi, generatywna chyba. Generatywna sztuczna inteligencja.

Magda Brumirska-Zielińska

Albo twórcza. Może to jest głupie słowo, żeby mówić o sztucznej inteligencji jako czymś twórczym, ale to jest chyba najlepsze tłumaczenie.

Jacek Zadrożny

Ale ja myślę, że spokojnie można mówić, że jest twórcza.

Magda Brumirska-Zielińska

To pogadaj z artystami.

Jacek Zadrożny

Bardzo chętnie pogadam z artystami. Natomiast to jest jedna część tego obszaru, ale jest cała masa innych rozwiązań, które nazywamy sztuczną inteligencją, które na przykład zajmują się nie generowaniem, a analizowaniem, na przykład obrazu, dźwięku. Przecież to, co robi Whisper, czyli przetwarza mowę na tekst, to nie jest generatywna sztuczna inteligencja. Albo może jest i taka, i taka, żeby być tak już zupełnie dokładnym. Krótko mówiąc, chodzi o to, że sztuczna inteligencja to jest taki rodzaj technologii, oprogramowania najczęściej, który może zastąpić człowieka w pewnych czynnościach.

Magda Brumirska-Zielińska

Dobra. Zastanówmy się, co ta sztuczna inteligencja w tej chwili potrafi, bo ChatGPT wspiera ludzi już w bardzo, bardzo wielu różnych formach pisemnych, natomiast mamy mnóstwo innych opcji. Myślę, że tak jak powiedziałeś, syntezatory mowy, to jest coś, co jest znane od lat. Takim chyba najbardziej popkulturowym przedstawieniem, najbardziej znaną osobą, która z tego korzystała, był profesor Hawking.

Jacek Zadrożny

Tak, przy czym pamiętasz, jak on brzmiał? On korzystał z dosyć takiego, prostego, analogowego nawet bym powiedział, syntezatora mowy. Który go tak naprawdę wspomagał, a nie syntetyzował od początku do końca.

Magda Brumirska-Zielińska

Tak, ale pamiętam, że chyba to było tak, że on w którymś momencie po prostu zdecydował, że kiedy przesiadał się już na bardziej zaawansowane systemy, to zostawiał sobie ten sam głos.

Jacek Zadrożny

No bo był rozpoznawalny.

Magda Brumirska-Zielińska

To był jego głos.

Jacek Zadrożny

Przecież, tak. Natomiast a propos syntezy mowy, to rozwój jest teraz tak niesamowity, że jeżeli spojrzeć na rozwiązania, to właściwie mogę powiedzieć, że polskiej firmy Eleven Labs, która jest teraz globalną marką. No, to są głosy, których moim zdaniem człowiek nie odróżni od zwykłego ludzkiego głosu. Oczywiście, te wysokiej jakości. To nie jest tak, że usłyszy, a sztuczna mowa to już nie ten etap, to jest dokładnie to narzędzie, które pokazywał Piotr Witek przy generowaniu swojego audiobooka.

Magda Brumirska-Zielińska

Tak, i to, co pokazał na AutomaticA11y Piotr Witek, było bardzo imponujące.

Dla osób, które na AutomaticA11y nie były. Wyglądało to tak, że Piotr napisał książkę i postanowił zsyntetyzować ją do audiobooka. Nagrał parę chyba godzin próbek swojego własnego głosu.

Jacek Zadrożny

Nieee.

Magda Brumirska-Zielińska

Ale dość długi materiał.

Jacek Zadrożny

Nagrał sporo, ale próbki mogą być krótkie. Nawet dobrze, jak są nie za długie, bo wtedy są takie jednolite. Tak natomiast musiało po prostu wypróbować trochę tych kawałków nagrań.

Magda Brumirska-Zielińska

Tak, tak. Natomiast z tego rzeczywiście udało się zsyntetyzować audiobooka, który brzmi tak, jakby czytał go autor.

Jacek Zadrożny

Dokładnie tak, nie wiem, czy pani też, ale też bezczelnie ukradł mój głos.

Magda Brumirska-Zielińska

Sala zamarła.

Jacek Zadrożny

[Śmiech].

Magda Brumirska-Zielińska

Bo wiecie, Jacek nam powiedział parę słów do mikrofonu na początku konferencji. A potem na scenę wchodzi Piotr Witek, który z syntezatora Puszcza głos Jacka, mówiący nam, że to jest mój ukradziony głos, który został przesyntetyzowany i wygenerowany przez sztuczną inteligencję.

Jacek Zadrożny

No, także mówię, takie mogą być efekty, jak ktoś się weźmie dobrze za odpowiedni kawałek sztucznej inteligencji.

Magda Brumirska-Zielińska

Co natomiast z transkrypcją? Bo transkrypcja to też jest dosyć już wyeksploatowane pole, jeżeli chodzi o dostępność i o automatyzację.

Jacek Zadrożny

To prawda, ja jednak myślę, że warto jeszcze ciągle w tym grzebać i uczyć się, jak to działa. To są doświadczenia mojej przyjaciółki z Rabki Zdroju, Ani, która zrobiła właśnie napisy do filmów z AutomaticA11y. I ona zauważyła ciekawe zjawisko, mianowicie to, że te napisy na początku są bardzo dobre, a potem się psują z czasem. I to nie znaczy, że ci ludzie mówią gorzej, po prostu sztuczna inteligencja to nie jest taki algorytm, który działa zawsze dokładnie tak samo. I trzeba znaleźć rozwiązanie dla takiego problemu. On zresztą występuje w większości generatywnych, sztucznych inteligencji, i w tych analitycznych też, że środek materiału przeważnie jest najgorzej obsługiwany. Zwłaszcza, jeżeli ma duży kontekst. Więc tutaj rozwiązaniem byłoby prawdopodobnie pocięcie tego nagrania na krótsze kawałki puszczenie ich oddzielnie.

No, ale to są właśnie takie eksperymenty, które trzeba robić, żeby dobrze wykorzystać sztuczną inteligencję.

Magda Brumirska-Zielińska

Ja jestem najbardziej zaznajomiona z systemem do transkrypcji, który nazywa się Beey.io. Ja w ogóle linki do wszystkiego, o czym rozmawiamy, wrzucę w opis naszego dzisiejszego podcastu. Więc jeżeli chcecie kliknąć w coś, poszukać czegoś nie musicie googlać, będziecie mieli w opisie.

Więc Beey jest całkiem fajnym systemem, bardzo dobrze radzi sobie z rozpoznawaniem mowy po polsku, co jeszcze parę lat temu nie było takie oczywiste. Natomiast nadal słabo radzi sobie z osobami, które nie mówią zbyt wyraźnie. Więc jeżeli mamy osobę, która się jąka, która ma jakąś wadę wymowy, która mamrocze z jakiegoś powodu, albo po prostu ząb ją boli – no to tam się pojawią problemy. problemy się pojawią przy transkrypcji nazw własnych, nazwisk, słów zapożyczonych z obcych języków. Wszystkich tych rzeczy, które nie są oczywiste.

Jacek Zadrożny

To prawda. I to jest właśnie dowód na to, że sztuczna inteligencja jest tylko naszym pomocnikiem, ale nas nie zastąpi. Bo oczywiście, taki tekst trzeba przejrzeć, poprawiać, natomiast nie trzeba go przepisywać w całości.

Magda Brumirska-Zielińska

I to jest ułatwienie życia.

Jacek Zadrożny

Tak, a poprawienie tekstu już wygenerowanego na przykład z godzinnego podcastu, to jest nic w porównaniu z tym, co by nas czekało, gdybyśmy mieli to przepisać słowo po słowie. To jest zupełnie inna kultura pracy.

Magda Brumirska-Zielińska

Przepisywanie ze słuchu osobie, która jest już w tym temacie w miarę przećwiczona i biegła zajmuje tak dwa, trzy razy więcej czasu, niż trwa sam materiał. Minimum

Jacek Zadrożny

No to godzinne nagranie na moim komputerze przetwarza około kwadransa.

Magda Brumirska-Zielińska

Tak, możesz sobie pójść i robić coś innego, bo to się robi w tle.

Jacek Zadrożny

Mogę też pracować dalej na komputerze.

Magda Brumirska-Zielińska

Mnóstwo systemów ma też taką funkcję, że tę transkrypcję później potnie na kawałki i zrobi napisy. Jeżeli kazaliśmy jej zrobić transkrypcję do filmu.

Jacek Zadrożny

Wiesz, co, to jest tak, że ten mój ulubiony model, czyli Whisper 3, ma tak, że na wyjściu daje aż pięć różnych plików do wyboru. Znaczy, „do wyboru”, można wygenerować sobie wszystkie. W tym dwa to są napisy. Czyli po pierwsze jest oczywiście ten słynny .srt, najczęściej używany. A drugi to jest WebVTT, który jest takim standardem sieciowym. Szkoda, że tak rzadko używanym, bo on pozwala na przykład na kolorowanie i formatowanie tekstu. Więc tak naprawdę Whisper wypluwa od razu napisy razem z tymi wszystkimi czasówkami, razem z informacjami, że gdzieś tam jest muzyka. Jakieś inne dźwięki pewnie też potrafi rozpoznawać, ale akurat ja nie miałem materiałów, które by miały takie dźwięki, bo zazwyczaj robię jednak po prostu transkrypcje prezentacji.

No i oprócz tego oczywiście mamy format .txt, .rtf i ich bodajże Json. Więc tak, on potrafi wypluć od ręki napisy odpowiednio też zsynchronizowane. Czy to nie wymaga poprawienia? Oczywiście, że wymaga, ale znowu – pracy jest zdecydowanie mniej.

Magda Brumirska-Zielińska

Czyli w zasadzie te dwa systemy każde z nas może polecić, ponieważ one robią w zasadzie to samo.

Jacek Zadrożny

Ja bym się nie założył czy tam w tej twojej usłudze właśnie nie jest mój Whisper pod spodem.

Magda Brumirska-Zielińska

Nie wykluczam.

Okej, czyli jedną rzeczą są transkrypcję i napisy, jedną rzeczą jest synteza mowy. Co natomiast z obrazkami? I to w jedną i w drugą stronę, bo i w jedną, i w drugą stronę praca z obrazem może być dla dostępności przydatna.

Jacek Zadrożny

Ja dokładnie dwa lata temu, jak się zaczęła ta cała rewolucja sztucznej inteligencji (bo dwa lata temu OpenAI uruchomił ten swój pierwszy model GPT, bodajże to było 3,5), ja też testowałem różne rozwiązania dotyczące analizy obrazu. I drugiego listopada na konferencji w Lublinie pokazałem, jak to beznadziejnie działa i w związku z tym nic z tego nie będzie. Rok później wszystko odszczekiwałem pod stołem, a dowodem na to, jak dużo się zmieniło, był taki opis, który tobie wysłałem podczas Forum, tak podczas Forum czy podczas targów.

Magda Brumirska-Zielińska

Podczas Targów Dostępności w Opolu.

Jacek Zadrożny

A czyli Targów.

No więc teraz są już takie narzędzia do analizy obrazu, które naprawdę są absolutnie wystarczające do przygotowania tekstu alternatywnego. Oczywiście, jeżeli ktoś potrzebuje bardziej konkretnych informacji, no to musi je wstawić już ręcznie. Tam akurat wysłałem ci wygenerowany opis do takiego zdjęcia, gdzie ja razem z Łukaszem Żmudą mówimy do mikrofonów podczas panelu właśnie o sztucznej inteligencji. Bardzo ładnie to wszystko opisał. Poza tym jednym, że oczywiście on nas nie znał, więc mógł powiedzieć tylko, że jest jeden mężczyzna, drugi mężczyzna. Ale opisał to doskonale, razem z kolorem krzesełek i logotypami, i całą resztą. Więc jeżeli bym chciał, żeby tam było napisane, że to jest ten ja, no to już to muszę ręcznie poprawić, ewentualnie nauczyć sztuczną inteligencję, że ta morda to jestem ja. Więc to już można spokojnie robić.

Czy to zawsze będzie idealnie? No nie, oczywiście, że nie. Dlatego, że czasem taki tekst alternatywny wymaga opisu czegoś mniej typowego niż jeden facet i drugi facet, mikrofony, sala i logotypy. Bo to może być na przykład zdjęcie jakiegoś mikroorganizmu, albo fragment jakiejś powierzchni widzianej przez satelitę. No i w tym momencie może się okazać, że to, co normalnie by działało, to tu przestaje działać, bo sztuczna inteligencja opisuje tylko to, co widzi, a nie to, co tam jest.

Magda Brumirska-Zielińska

Bo nie zna kontekstów. My je znamy. Oczywiście, ten sam problem będzie przy zdjęciach z konkretnych wydarzeń, na których my wiemy, kto stoi na scenie, kto stoi przy mikrofonie, co to jest za wydarzenie, gdzie i kiedy się odbyło.

My ten kontekst mamy, i musimy go dodać.

A przypomnij, proszę, jakiego narzędzia użyłeś wtedy do stworzenia tego tekstu alternatywnego.

Jacek Zadrożny

Tego najpopularniejszego, czyli używanego przez osoby niewidome Be My Eyes, czy tam w tym wypadku Be My AI, które robi to doskonale, to jest mistrzostwo świata. Dlatego, że korzysta co prawda ze standardowego modelu computer vision, ale zostało sprofilowane i doszkolone na potrzeby osób niewidomych. To znaczy, że konkretnie dla osób niewidomych jest przygotowywany taki opis alternatywny. No i to widać, to widać tak standardowo, jak to się uczy zazwyczaj, od ogółu do szczegółu dokładnie tak jest skonstruowany ten tekst alternatywny.

To jest właśnie wykorzystanie konkretnego modelu już istniejącego do tego, żeby wykonywał bardzo konkretne zadania.

Magda Brumirska-Zielińska

Czy Be My AI jest też dostępne dla osób widzących, czy to jest tylko funkcja tej części Be My Eyes, która jest dostępna dla osób, które nie widzą?

Jacek Zadrożny

Wiesz co, nie mam pojęcia.

Magda Brumirska-Zielińska

Czyli to jest do sprawdzenia.

Jacek Zadrożny

To jest do sprawdzenia. Wiem, że jak się zalogowałem, to mogłem używać. Przy czym do ciebie akurat wysłałem opis z aplikacji mobilnej, natomiast ja na co dzień korzystam też takiej wersji na Windows, ona jest w sklepie Windows Store. Można sobie pobrać. To bardzo mi pomaga podczas codziennej pracy.

Naprawdę bardzo użyteczna.

Magda Brumirska-Zielińska

Czyli wszędzie tam, gdzie w internecie nie ma tekstu alternatywnego ty wspomagasz się przez Be My AI.

Jacek Zadrożny

Nie tylko.

Magda Brumirska-Zielińska

O, nie tylko.

Jacek Zadrożny

Dlatego, że on może mi opisać w ogóle, co jest na stronie internetowej. I całkiem niedawno mi się to bardzo przydało. Bo był formularz, który był zaprojektowany, tak, że z czytnikiem nie bardzo dawało się go używać. Odpaliłem Be My Eyes, i dopytałem o różne szczegóły. I już mogłem używać. To znowu jest taka… To właśnie polega między innymi na tym, że on wie, czego ja jako osoba niewidoma mogę chcieć się dowiedzieć. Kiedyś zrobiłem zdjęcie mojej zmywarki i on wiedział, że ja pewnie będę chciał wiedzieć, jak są przyciski poukładane, i dokładnie to mi opowiedział. Nie opowiada mi za bardzo o kolorach i takich rzeczach, bo to jest mniej istotne, ale oczywiście mogłem dopytać też, jakby mnie interesował kolor, to spokojnie mogłem zapytać. Zresztą, pytałem o kolory, też pytałem. Jeżeli chodzi o napisy.

Magda Brumirska-Zielińska

Podejrzewam, że on też wyciąga dane z pytań, które dostaję od innych osób. Strasznie śmieszne jest to w kontekście tłumacza Google, powiem ci. Ja z moimi rodzicami siedzę dużo na Duolingo, uczymy się języków. I mój tata ma taką konspiracyjną teorię, że Google się na pewno z tym Duolingo spiknął i sobie nawzajem płacą, bo jak tata wpisuje w tłumacza Google jakieś zdanie z Duolingo, to ten tłumacz mu natychmiast podpowiada, co tam będzie dalej i to się zgadza [z tym, co jest w aplikacji]. Ale tata zapomina, że te zdania są ćwiczone przez miliony ludzi na świecie i oni też wpisują te same pytania w tłumacza Google.

Jacek Zadrożny

Tak, to w ogóle sobie warto zdawać sprawę, że głównymi dostawcami treści do takich… tłumacz Google też jest sztuczną inteligencją.

Magda Brumirska-Zielińska

Oczywiście.

Jacek Zadrożny

To jesteśmy my, tak naprawdę. No bo skąd Mapy Google wiedzą o tym, że gdzieś jest korek? No przecież to nie jest tak, że Google to sprawdza, ktoś tam jedzie i patrzy, czy jest korek. On wie to z naszych telefonów.

Magda Brumirska-Zielińska

No tak, jeżeli dużo telefonów, które się łączą z Google, przed chwilą jechało dość szybko, a teraz stoją wszystkie w jednym miejscu, to musi mieć jakąś przyczynę.

Jacek Zadrożny

Dokładnie tak.

Jacek Zadrożny

No z tego samego powody, chociaż… Powiem ci ciekawostkę. Mianowicie kiedyś taki Niemiec postanowił zrobić taki trolling. Zebrał sobie od znajomych kupę telefonów komórkowych…

Magda Brumirska-Zielińska

Znam tę historię.

Jacek Zadrożny

Wszystkie je uruchomił i wsadził do wózka dziecięcego. I tak sobie szedł po ulicy, i wszyscy mieli informację, że tam jest korek, bo tyle telefonów tam porusza się bardzo wolno.

Magda Brumirska-Zielińska

Tak, tak ogólnie. To zbieranie danych z map Google jest na dłuższą metę rzeczą, która ułatwia nam życie. Nawet w takich głupich momentach, kiedy trzeba zdecydować, czy pójść do sklepu na zakupy teraz, czy trochę później, bo Google mówi ci czy tam teraz jest tłok.

Jacek Zadrożny

Tak. Czasem o to pyta na przykład czy w autobusie było ciasno?

Magda Brumirska-Zielińska

Jacek Zadrożny

Tak. Więc też można poinformować o tym, że w tych godzinach jest tam ciasno, a w tych godzinach jest tam luźniej.

Magda Brumirska-Zielińska

To jest funkcja, która mnie nigdy nie złapała. Z takim pytaniem.

Jacek Zadrożny

Może nie jeździsz komunikacją.

Magda Brumirska-Zielińska

Jeżdżę tylko i wyłącznie komunikacją miejską, chyba że już muszę wsiąść za kółko? Możliwe, że ja po prostu mniej używam funkcji wyszukiwania transportu publicznego.

Jacek Zadrożny

To ja bardzo często.

Magda Brumirska-Zielińska

Ja do tego mam jak dojadę. Które z tego, co pamiętam, jest słabo dostępne?.

Jacek Zadrożny

Tak i wcale nie wiem, czy jest jakoś dużo lepsza od Map Google.

Magda Brumirska-Zielińska

W Google mamy więc możliwość tworzenia tekstów alternatywnych, które mogą być nawet jakąś bazą do audiodeskrypcji, do obrazów. Ja na razie bardzo wątpię w to, czy szybko uda się robić pełne audiodeskrypcje fotografii, obrazów, takie na potrzeby kulturalne. To, co Fundacja Katarynka robi dla muzeów czy galerii. Bo to jednak poza tym, że ma pewną strukturę, ma swój wstęp, ma ogólny opis, ma rozwinięcie, ma na samym końcu konteksty nadane. Nie wiem, czy sztuczne inteligencje szybko nauczą się tych wszystkich kontekstów, które tam jednak trzeba brać pod uwagę przy opisywaniu obrazu na cele właśnie muzealno-galeryjne.

Jacek Zadrożny

To może zacznę od tego, że kiedy ty byłaś na panelu i mówiłaś właśnie o tym, żę z audiodeskrypcją, to nie wiadomo, kiedy pewnie nigdy ja tam siedziałem z tyłu i mocno kręciłem głową. Nie wiem, czy widziałaś.

Magda Brumirska-Zielińska

Siedziałeś za kamerą, więc cię nie widziałam.

Jacek Zadrożny

A, okej. No więc już to jest, to już jest, jeżeli chodzi o opisywanie filmów. Chociaż zaraz powiem, że też częściowo z tobą oczywiście zgadzam. Jak ktoś ciekawy, to na stronie Cookbook od OpenAI jest taki notatnik, Jupiter Notebook to się nazywa. To jest taki specjalny format, gdzie jest kod połączony z tekstem i można uczyć się z tego, jak się programuje. I oni tam zrobili właśnie taki eksperyment, wzięli sobie krótki film przyrodniczy i uruchomili taką właśnie… Dosyć skomplikowana jest ta aplikacja, wtedy chyba nie było prostszych metod. W każdym razie, zażyczyli sobie, żeby, ponieważ był to film przyrodniczy, żeby to było w stylu Davida Attenborough. Mówione chyba nie jego głosem, a przynajmniej, jak mi się wydaje, że to był inny głos. I to jak najbardziej zadziałało.

Magda Brumirska-Zielińska

David Attenborough to jest taka brytyjska Krystyna Czubówna.

Jacek Zadrożny

Tak no więc ten opis był jak najbardziej audiodeskryptywny. Opisał po prostu, że tam są wilki i że atakują jakąś sarenkę czy coś. Dokładnie to, o co chodzi. Co prawda oni tam zrobili to w stylu właśnie takiego komentarza Davida Attenborough, podczas gdy standardowa audiodeskrypcj jednak jest oszczędniejsza w słowa. Tam nikt nie mówił, więc spokojnie można było ją wykorzystać przez cały czas. Ale tak z punktu widzenia audiodeskryptorów to nie była oczywiście taka prawdziwa audiodeskrypcja, ale to tylko kwestia tego, jak się napisze prompty. Niczego więcej. Natomiast, co do tego kontekstu filmów. Przede wszystkim filmów, moim zdaniem, bo dzieła sztuki, to moim zdaniem już można by było robić, ale do tego zaraz przejdę. Natomiast co do filmów fabularnych, to tak. Ja myślę, że tu jeszcze sztuczna inteligencja musi się wielu rzeczy nauczyć. Ale myślę też, że jeżeli dostarczyć pewnych informacji na początku, to znaczy co jest istotne, jak ma postępować, to już by mogła to zrobić.

Oczywiście, że do poprawienia. Jak zawsze, jeszcze raz: sztuczna inteligencja nie ma być zamiast ludzi. Ma być obok ludzi, ma ich wspierać. Natomiast myślę, że to jest już coś do zrobienia. Nie wiem, jak bardzo to by było kosztowne, bo jednak przetwarzanie wideo żre tokeny jak szalone. Ale to jest już moim zdaniem do osiągnięcia.

I teraz to, o czym ty wspominasz, czyli opisy dzieł sztuki. Moim zdaniem tak jak jest to to zrobione na przykład w Wilanowie, gdzie mają takie zasoby zdjęć, 10 000 zdjęć różnych eksponatów, to mając do dyspozycji te informacje plus zdjęcie – ja jestem pewien, że dałoby się już z tego wygenerować bardzo sensownąaudiodeskrypcję. Jestem tego pewien, tylko do tego musi usiąść ktoś, kto wie, jak to się robi i drugi, który wie, jak to zaprogramować.

Magda Brumirska-Zielińska

I to się też trochę bierze. Z tego, że opisy muzealne, takie tworzone na potrzeby archiwów muzealnych, archiwów w galeriach, to jest coś, czego historycy sztuki uczą się na studiach. I one w swojej konstrukcji są całkiem zbliżone do tego, co my robimy, tworząc audiodeskrypcje statyczne do obrazów. Mamy taką audiodeskryptorkę u nas, która jest historyczką sztuki i mówiła, że jej to przychodzi z dużą łatwością, bo po stu pięć lat jej to na studiach ćwiczyli.

Jacek Zadrożny

Więc tak jak mówię. Żeby to zamienić na tekst audiodeskrypcyjny, jest moim zdaniem rzeczą dość prostą. Potem tylko podłączyć syntezę mowy i hajda.

Opowiem ci jeszcze jedną rzecz, jaką eksperymentowałem właśnie z Anią z Rabki Zdroju. Nakręciłem ją trochę właśnie na takie technologiczne rzeczy. I zaproponowałem, żeby zrobiła audiodeskrypcję za pomocą sztucznej mowy do eksponatów, które były podczas takiego corocznego wydarzenia w sierpniu, jakie się w Rabce odbywa, taki piknik historyczny. I też się bardzo dużo nauczyliśmy podczas pracy nad tym. Ona to wykorzystała. To wszystko działało. Kody QR się wygenerowały, i nagrania bardzo fajne. Przy okazji dowiedzieliśmy się, że trochę za wolną syntezę wybraliśmy, bo jednak pani powolutku się bardzo wypowiadała. Ale też nauczyliśmy się jakie są ograniczenia w syntezie mowy, więc wiemy, jak edytować. Nawiasem mówią, Piotrek Witek też napisał na ten temat cały artykuł monografii, chyba dla Akademii Górniczo Hutniczej, o ile pamięć mnie nie myli. Bo to też trzeba wiedzieć, jak taki tekst przygotować i co robić, czego nie robić.

Tak że my się bardzo dużo nauczyliśmy. I cały czas za mną chodzi, żeby przygotować też takie narzędzie, które by takie coś wspomagało. Myślę, że to jest do zrobienia. Ja tu nie chcę mówić, że będziecie niepotrzebni. Ale myślę, że można wam dać do ręki bardzo poręczne narzędzia.

Magda Brumirska-Zielińska

Tak, to prawda, to prawda.

Myślę też o sztucznych inteligencjach i ich w związku z obrazami w drugą stronę, czyli to, czym bawią się od dwóch lat osoby widzące: generowanie obrazów. Bardzo oszczędnie i bardzo testowo sprawdzaliśmy sobie, czy dałoby się [to zrobić] w tekstach ETR, w tekstach łatwych w czytaniu i rozumieniu. One są bardzo sformalizowane, jeżeli chodzi o to, jak mają wyglądać, jak mają teksty być pisane, i do nich mają być zawsze dołączane obrazy. Te obrazy są najczęściej piktogramem, prostą grafiką, czymś trochę zbliżonym do clipartów, które znamy z lat dziewięćdziesiątych i dwutysięcznych. Baza obrazów, która zazwyczaj jest wykorzystywana, jest dostępna na licencji Creative Commons, więc dlatego jest wykorzystywana. Te obrazki po prostu nie są estetyczne, one nie są ładne, one nie są przyjemne do oglądania. Więc sprawdzamy, co da się zrobić, żeby przy użyciu sztucznej inteligencji generować coś w zamian.

Natomiast na razie nasza rekomendacja dla samych siebie jest taka, że musielibyśmy poświęcić…

Jacek Zadrożny

Że jednak nie?

Magda Brumirska-Zielińska

Wiesz co, nie, nawet nie to. Nasza rekomendacja dla nas samych na ten moment jest taka, że mamy trochę za mało czasu na to, żeby porządnie naszą sztuczną inteligencję wytresować, tak, żeby te obrazy były zawsze robione w tym samym stylu, żeby zawsze były do siebie graficznie podobne.

Jacek Zadrożny

Tak, problem powtarzalności jest dość duży. Ale dosłownie dzisiaj albo wczoraj oglądałem taki film na temat dziesięciu nowych modeli. I tam akurat dokładnie mówili o tym problemie. Mianowicie powstał model, który potrafi utrzymywać ten sam styl, i nawet te same postacie wykorzystywać, w różnych generowanych obrazach. To zawsze był problem. Zawsze był problem, że ktoś chciał mieć kilka obrazków z tą samą postacią i standardowe narzędzia nie radziły sobie z tym. Ale już jest taki model, o ile pamiętam, on jest od Microsoftu. I nawet jest chyba dostępny na Hugging Face do wypróbowania, tak że można by też spróbować. A powiedz mi jeszcze, bo teraz w tym podjarałaś, bo temat ETR-ów zawsze nie kręcił. Czy wy to generujecie samodzielnie, czy próbujecie dopasować automatycznie do akapitu do którego ma być ta grafika?

Magda Brumirska-Zielińska

Raczej nie do akapitu. Musimy samodzielnie napisać prompt. Dlatego, że akapit brzmi na przykład „Nasz numer telefonu to 123 456 789”, nie? A obrazek, który temu powinien towarzyszyć, to powinien być – i tutaj spróbuję stworzyć jakiś taki mikroprompt, który bym wpisała: Grafika w stylu takim lekko komiksowym, line art na pewno, czyli mocna, gruba kreska, uproszczone wszystkie szczegóły, przedstawiająca telefon. Najlepiej telefon komórkowy, bo to też trzeba bardzo uściślić. Kiedy się pisze takiego prompta, więc sama treść akapitu niestety nam nie do końca daje prompt, bo ona ma uzupełniać i pomagać zrozumieć akapit.

Jacek Zadrożny

To ja już wiem, jak sobie z tym poradzić. Ale to już nie na tę rozmowę tutaj, bo to się oczywiście da ogarnąć takim repromptingiem jeszcze. To jest akurat bardzo łatwe.

Magda Brumirska-Zielińska

Cudownie. Bardzo mnie to cieszy.

Jacek Zadrożny

Przepraszam, ale po prostu ja tak dużo już się nauczyłem, że czasami widzę od razu rozwiązania pewnych problemów. Nawiasem mówiąc, nie wiem, czy pamiętasz. Na AutomaticA11y była Alicja Maciejewska, która pokazywała, jak próbowała sobie radzić z prostym językiem, z ETR-ami.

Magda Brumirska-Zielińska

Z tekstami. Z samym tekstem.

Jacek Zadrożny

Powiedziała, że sobie z tym sztuczna inteligencja nie radzi. No więc sztuczna inteligencja sobie z tym doskonale poradzi, tylko znowu trzeba wiedzieć, jak to zrobić. Gdyby Alicja użyła wtedy promptów i opisała reguły, jakimi ma się posługiwać sztuczna inteligencja, to efekt byłby zdecydowanie, zdecydowanie lepszy. Ja wiem, bo napisałem sam takie proste narzędzie. Kiedyś dawałem je do testowania. Prostownik się nazywało. I ono działało bardzo dobrze, choć niekonsekwentnie, ale nawet osoby, które studiowały – akurat wtedy pamiętam, że Piotr Witek mówił, że „tu sobie nie poradziło, ale tutaj zadziwiająco dobrze sobie poradziło”. A ona akurat skończył teraz podyplomówkę dotyczącą prostego języka. Strasznie często nam ten Piotr Witek tutaj wypada, prawda.

W każdym razie, ja to narzędzie potem jeszcze poprawiłem. Tylko potem go już nie opublikowałem. Ale muszę je wygrzebać i rzeczywiście opublikować, bo dodałem kilka rzeczy. Więc jak najbardziej, sztuczna inteligencja sobie z tym poradzi. Nie ma problemu, tylko mówię, trzeba wiedzieć jak.

Magda Brumirska-Zielińska

I to nawet te dość ogólnodostępne, sztuczne inteligencje typu ChatGPT. Tutaj nie trzeba chyba szukać bardziej zaawansowanych czy skomplikowanych narzędzi.

Jacek Zadrożny

Nie, nie trzeba, natomiast trzeba go poduczyć jak on ma to zrobić. Bo napisanie tylko, że napisz prostym językiem, to nie jest dla niego za bardzo dobra albo kompletna informacja.

Magda Brumirska-Zielińska

Bo skąd on ma wiedzieć, co to jest prosty język?

Jacek Zadrożny

Otóż to.

Magda Brumirska-Zielińska

Ze sztucznymi inteligencjami, które piszą, i nie tylko, jest tak, że jeśli my im zadamy pytanie o coś, na czym one się kompletnie nie znają, to one zaczną wymyślać i bredzić. To z tego, co wiem, się w ogóle nazywa halucynacje z głodu.

Jacek Zadrożny

Tak, ale to akurat nie jest jeszcze do końca halucynacja.

Mówisz, że się sztuczna inteligencja na czymś nie zna. Otóż sztuczna inteligencja, te modele duże, zostańmy przy tym GPT 4.O, powiedzmy. One wiedzą ogromnie dużo, ale nie wiedzą jednego. Nie wiedzą, co masz w głowie, kiedy piszesz pytanie.

Magda Brumirska-Zielińska

Dokładnie.

Jacek Zadrożny

Jak mu napiszesz dokładnie albo wdasz się w dyskusję po prostu z nim, bo to jest model konwersacyjny, czyli do rozmawiania z nim, to nagle się okazuje, że on tu wszystko ty potrzebujesz, wie. Tylko, że po prostu trzeba widzieć, jak z nim rozmawiać i to jest właściwie klucz. Tak naprawdę trzeba nauczyć się rozmawiać z takim modelem językowym. Jeszcze mi się nie zdarzyło, żebym nie osiągnął tego, co potrzebowałem, choćby nawet trzeba było do tego kilku iteracji.

Moja córka Maja miała pojechać na obóz harcerski jako kadra i miała też przygotować takie zestawienie wart harcerskich. I miała takie założenie, żeby na każdej warcie była inna para albo przynajmniej żeby było tak, że każdy z każdym będzie taką wartę pełnić. Powiedziała mi też, ile godzin trwa taka Warta, ile jest harcerzy. Powiedziała mi, że to jest w parach pełniona taka warta. No i napisałem odpowiedni prompt do ChatagPT, żeby mi też wygenerował od razu Excel. I wiesz, co? On sobie z tym zupełnie nie poradził. Potem go podprowadzałem: że może tak, może tak. Za każdym razem było tak naprawdę coraz gorzej. No i się okazało, że jednak ta sztuczna inteligencja nie zawsze sobie radzi. Ale potem spróbowałem od nowa. I spróbowałem po kroczku, nie tak od razu całe zadanie wrzuciłem, ale tylko po kroczku. Najpierw mu opisałem, ile będzie tych harcerzy, ile będzie tych wacht, żeby mi to rozplanował. Rozplanował mi to. A teraz bym chciał, żeby to było tak, że każdy pełni przynajmniej jedną wartę z kimś innym z drużyny. I jak tak krok po kroku mu to opowiadałem, to się okazało, że już wygenerował prawidłowo. Czyli trzeba czasem po prostu znaleźć sposób na to, jak rozwiązywać problemy, a nie poddawać się od razu, że sobie nie radzi.

Magda Brumirska-Zielińska

Ja powiem ci z kolei, że parę dni temu wrzuciłam w ChatGPT prośbę o podsumowanie jakiegoś dłuższego tekstu w bardzo konkretnej formie. Dałam jako przykład coś, co było przygotowane już wcześniej, z takiej samej serii, żeby ten ChatGPT miał jakąś bazę do myślenia, o tym, jak to ma wyglądać… i on sobie tak dramatycznie tamtego dnia nie radził, że ja po prostu stwierdziłam, że ani on, ani ja nie mamy w tej chwili cierpliwości do tej roboty i spróbujemy kiedy indziej. Trochę się na niego obraziłam. Ale już mi przeszło.

Jacek Zadrożny

Wiesz, bo to jest takie coś, co trzeba zaakceptować. Wiem, że to jest trudne, bo ludziom się zdaje, że przecież to komputer, powinno zawsze działać tak samo. No guzik prawda. Właśnie tak wcale nie jest.

Magda Brumirska-Zielińska

Wiesz, to były rzeczywiście guziki, że kliknij i niech on zrobi to, on by robił dokładnie to, co ma robić ten guzik, ale jest on nie.

Jacek Zadrożny

Nie, wcale nie, właśnie o tym mówię. Dajesz na wejściu to samo i on raz zrobi tak, a raz zrobi inaczej.

Magda Brumirska-Zielińska

A to też jest prawda.

Jacek Zadrożny

Tak że jeszcze raz: trzeba mieć tego świadomość, że to nie jest tak, że jak już coś raz się zrobiło, to będzie zawsze tak samo działać. Absolutnie nie. Dlatego trzeba, mając to w głowie, trzeba po prostu znaleźć takie sposoby na to, żeby ograniczyć te jego… halucynacje, powiedzmy. Bo halucynacja to jest taka sytuacja, kiedy on odpowiada, chociaż nie ma do tego żadnych podstaw. Czyli wymyśla, krótko mówiąc. Ale to już jest coraz rzadziej, dlatego, że zostały wprowadzone algorytmy korygujące. Tej jego halucynacje wynikają z jego wielkiej chęci do pomocy, że chociaż nie wie jak, ale jednak coś podpowie na siłę.

Magda Brumirska-Zielińska

Prosisz mnie, żebym ci coś powiedział, to ja ci o tym coś powiem.

Jacek Zadrożny

Dokładnie tak. No więc teraz są już takie algorytmy korygujące i te halucynacje zdarzają się zdecydowanie, zdecydowanie rzadziej. Ale jeszcze ci jedną rzecz podrzucę. Jak będzie w lepszej formie GPT, żeby zrobiła sobie taki eksperyment, jeżeli gdzieś będziesz pisała wniosek na przykład do jakiegoś urzędu Marszałkowskiego.

Magda Brumirska-Zielińska

[Ironicznie] Och, Jacku, przecież oczywiście, że ja wnioski będę pisała ręcznie, z głowy i samodzielnie.

Jacek Zadrożny

No nie, ale chcę, żebyś zrobiła taki eksperyment. Wrzuć regulamin tego konkursu, wrzuć wzór wniosku, wrzuć to, co chcesz, żeby tam się zadziało, to już w prompcie. I napisz: wypełnij wniosek zgodnie z regulaminem, który ci podałam. Nie mówię, że zawsze wyjdzie, ale często wychodzi.

Magda Brumirska-Zielińska

My to nagrywamy w samym środku trwania naborów na programy ministerialne. Więc temat jest jak najbardziej żywy. Tak, tak.

Jacek Zadrożny

No spróbuj, próbuj.

Magda Brumirska-Zielińska

Zobaczymy, zobaczymy dam ci znać, co mi wyjdzie.

Ja mam jeszcze dwa pytania dotyczące różnych rodzajów sztucznych inteligencji. Co one nam mogą zrobić? Jak mogą nam pomóc, jeśli chodzi o dostępność? I to są chyba te, do których mamy… Jedna jest taka, do której wydaje mi się, że mamy jeszcze daleko, a druga jest taka, o której w ogóle nie myślałam wcześniej, czyli ta architektoniczna. Ale ta, do której mamy daleko: wydaje mi się, że zrobienie sztucznej inteligencji, która będzie tłumaczem języków migowych, to jest niezwykle skomplikowana sprawa.

Jacek Zadrożny

Mi się wydaje, że nie, ponieważ język migowy jest po prostu jednym z języków. I podam to na przykładzie tłumacza Google, który dosłownie kilka miesięcy temu, w lecie jakoś to było, poinformował o tym, że do tłumacza danych jest kolejnych sto czterdzieści parę języków.

To znaczy, że liczba tych języków obsługiwanych zwiększyła się mniej więcej dwukrotnie. Czy myślisz, że ktoś tam naprawdę siedział i uczył się tych języków? Jakiegoś urdu na przykład.

Dlatego mówię: jak się podejdzie do języka migowego, jak do języka, to się może okazać, że to jest dość jednak proste. To, z czym jest problem, to wizualizacja tego.

Magda Brumirska-Zielińska

No właśnie

Jacek Zadrożny

Bo nie ma dość dużo materiałów wideo, które można byłoby wykorzystać jako materiał źródłowy.

Magda Brumirska-Zielińska

Tak.

Jacek Zadrożny

Podobno Migam.org zrobiło taki, korzystając z materiału z BBC. W związku z tym, oczywiście, on rozumiał BSL [British Sign Language]. A po polsku – nie wiem, czy istnieje taki korpus językowy, żeby dało się go wykorzystać do tego, żeby aż tak szybko i sprawnie coś takiego zrobić.

Magda Brumirska-Zielińska

Wiesz co, istnieje korpusowy słownik języka migowego, który raczej zbiera słówka, jest po prostu słownikiem, nie jest korpusem tekstów.

Jacek Zadrożny

To jest za mało, to trzeba mieć materiał nagrywany, do którego jednocześnie jest obok jakiś materiał tekstowy, który informuje o tym, co tam jest migane. I takich materiałów tak naprawdę brakuje, bo w tym z BBC było jednocześnie osoba migająca i napisy.

Więc one razem do kupy wzięte pozwalały na to, żeby sztuczną inteligencję nauczyć. Jak będziemy mieli w Polsce takie zasoby, to nauczyć sztuczną inteligencję, żeby migała, to nie będzie już taki wielki problem. Natomiast w drugą stronę. ..

Magda Brumirska-Zielińska

No właśnie.

Jacek Zadrożny

W drugą stronę może być rzeczywiście trudniej. Choć, z moim zdaniem innych przyczyn trochę.

Bo na tym korpusie nauczona sztuczna inteligencja na pewno sobie poradzi. Tylko, że to są nagrania, że tak powiem, bardzo porządnego migowego. Na co dzień osoby Głuche nie migają aż tak porządnie.

Magda Brumirska-Zielińska

I każda osoba Głucha miga w zupełnie inny sposób.

Jacek Zadrożny

No może nie zupełnie, troszkę przesadzasz, ale rzeczywiście w inny.

Magda Brumirska-Zielińska

Ale to jest bardziej zróżnicowane, niż taki prywatny język każdego mówiącego fonicznie człowieka.

Jacek Zadrożny

Ale to ja ci porównam to do syntezy mowy? Synteza mowy była od bardzo dawna.

Magda Brumirska-Zielińska

Tak.

Jacek Zadrożny

A rozpoznawanie mowy, takie sprawne, jest od stosunkowo niedawna, może od dziesięciu lat. Natomiast syntezatory są spokojnie od pięćdziesięciu lat. To jest moim zdaniem dokładnie to samo to nie znaczy, że sztuczna inteligencja się tego nie nauczy.

Magda Brumirska-Zielińska

Kiedyś nauczy. Oczywiście.

Jacek Zadrożny

Natomiast generowanie języka migowego to, ja myślę, że jest w zasięgu ręki.

Magda Brumirska-Zielińska

Prawdopodobnie będzie to na takim poziomie jak tłumacz Google te pięć, sześć, siedem lat temu, czyli wtedy, kiedy my się trochę podśmiewaliśmy z jakości jego tłumaczeń, bo można było natychmiast zorientować się, że to jest tłumaczenie z Google. Ale teraz one są, znowu: zaskakująco akuratne, zaskakująco prawidłowe.

Jacek Zadrożny

No ja ci powiem, że to jest kolejna chluba polskich programistów i speców od sztucznej inteligencji, ale najlepsze oprogramowanie do tłumaczenia jest właśnie w polskiej firmie. Nazywa się Deepl. To jest znacznie lepsze niż tłumacz Google czy tłumacz Microsoftu. No i to oczywiście jest tak, że jak się rozłoży język do takich podstawowych elementów to język migowy jest po prostu jednym z języków. To nie jest tak, że on jest jakoś szczególnie inny. Poza tym oczywiście, że tak powiem, końcówka syntetyzująca jest inna, bo nie jest to dźwięk, tylko obraz.

Magda Brumirska-Zielińska

Tak, tak. Ja zastanawiam się właśnie nad możliwością transkrypcji tekstu zamiganego czy swobodnej wypowiedzi w języku migowym i transkrybowania tego na tekst foniczny, spisany literowo. Dlatego, że to są jednak bardzo różne systemy. System wizualny i system dźwiękowy mają barierę, której niektóre treści po prostu nie są w stanie przekroczyć.

Jacek Zadrożny

Wiesz co, chyba się z tobą nie zgodzę.

Magda Brumirska-Zielińska

Pozwól, że wytłumaczę, co mam na myśli. Bo w migowym na przykład jest tak, że jeżeli chcemy powiedzieć, że położyłam książkę na wysokiej półce, to migam „książka” i wizualnie układam ją w wysokim miejscu, ewentualnie dodając słowo „półka”. To nie zawsze są słowa ułożone gramatycznie, po kolei. Tam też bardzo dużo mówi to, w którym miejscu coś ustawiamy.

Jacek Zadrożny

Dlatego w definicji jest, że to jest wizualno-przestrzenny język.

Magda Brumirska-Zielińska

Tak jest.

Jacek Zadrożny

A więc ja o tym oczywiście wiem. Natomiast jeżeli on rozpozna gesty: „książka”, „półka” i gest kładzenia czegoś, to on na wyjściu dostarczy te 3 słowa. Na razie hipotetycznie mówię, oczywiście.

No, to przerobienie tego na zrozumiały język polski, moim zdaniem jest akurat dość banalne. Problem jest moim zdaniem zupełnie gdzie indziej, to znaczy w samym rozpoznawaniu tych gestów.

Ale jeżeli się ten kawałek przekroczy, to dale już będzie z górki.

Magda Brumirska-Zielińska

Tak. Parę miesięcy czy może z półtora roku temu przez polskie media przewinęła się taka informacja, że studenci… nie przypomnę sobie w tej chwili jakiej uczelni i z jaką afiliacją. W każdym razie, studenci stworzyli rękawice, dzięki którym osoba migająca mogłaby literować.

Jacek Zadrożny

[Śmiech].

Magda Brumirska-Zielińska

Co z jednej strony jest bardzo fajnym ćwiczeniem, bardzo fajnym sposobem na to, żeby zacząć pracę nad jakimś rodzajem przepisywania tekstu zamiganego na tekst pisemny. Wyjściem do tego, żeby później na przykład przy pomocy takich rękawic można było spisywać treść znaków migowych. Natomiast ubranie tych rękawic, nauczenie osoby Głuchej, jak tego używać, i proszenie jej, żeby zamigała literowo całe zdanie potrwa… wydaje mi się że kwadrans. Natomiast poproszenie jej o to, żeby ona zapisała to zdanie przy pomocy kartki i długopisu, potrwa tyle, ile podanie kartki i długopisu.

Jacek Zadrożny

No doskonale, że ludzie próbują takie rzeczy zrobić. Ale rzeczywiście, trochę jednak nie zrobili dobrej kwerendy. Bo gdyby ją zrobili, to by wiedzieli, że większość osób Głuchych nie zna języka polskiego albo zna go słabo.

Magda Brumirska-Zielińska

Dokładnie.

Jacek Zadrożny

Więc żadna rękawica w niczym nikt nie pomoże, bo po prostu nie przeliterują tego tekstu. A ci, którzy znają język polski, to rzeczywiście napiszą na kartce i żadna rękawica nie jest im do tego potrzebna.

Magda Brumirska-Zielińska

Dokładnie.

Jacek Zadrożny

Ale dobrze, że ludzie eksperymentują. To jest fajne.

Magda Brumirska-Zielińska

Tak, tak. Jeszcze uzupełniając, tę podstawową znajomość języka polskiego to prawie wszyscy mają. Więc napisanie bardzo prostego zdania, nie wiem w kasie w sklepie, że poproszę o paczkę gumy do żucia, to jest prawie każdy w stanie napisać.

Jacek Zadrożny

Powiem ci, że jak czytałem czasem fora Głuchych na Facebooku. To nie wyglądało tak, jakby oni się posługiwali językiem polskim, używali polskich słów, i tylko tyle.

Magda Brumirska-Zielińska

Tak, ale myśleli w języku migowym. To na tym polega. Tak, to są osoby, które myślą w swoim języku wizualno-przestrzennym i podłożenie pod niego polskich słów dla osoby myślącej fonicznie nie zawsze będzie zrozumiałe i nie zawsze będzie wyglądało naturalnie. Tak.

Jacek Zadrożny

Ja zakładam, że jak ten ktoś przyjdzie do sklepu i będzie chciał 3 bułki, to prędzej napisze „3 × bułka”.

Magda Brumirska-Zielińska

Albo wskaże na bułkę i pokaże „trzy” na palcach. Oczywiście, w takich prostych sytuacjach każdy się jest w stanie dogadać.

Jacek Zadrożny

I nie trzeba rękawicy.

Magda Brumirska-Zielińska

Tak, tak dokładnie.

Jacek Zadrożny

Podeślę ci link do tego filmu z tym Attenborough, żebyś zobaczyła efekt.

Magda Brumirska-Zielińska

A ja te wszystkie linki nam w opisie naszego dzisiejszego odcinka.

Jacku, ty jeszcze dzisiaj, na samym początku zagaiłeś taki temat jak dostępność architektoniczna wspomagana przez sztuczne inteligencje. I mnie to bardzo zaciekawiło, bo przyznam ci się, że wcześniej nawet przez głowę mi nie przeszło, że coś tu może być na rzeczy. Mógłbyś chociaż w kilku zdaniach powiedzieć, co się w tym temacie na razie dzieje?

Jacek Zadrożny

No pewnie, i powiem ci, że nawet wiem, że już są robione próby. I tu jest kilka wątków.

Pierwszy wątek taki, który przynajmniej dla mnie był oczywisty od dawna, tylko po prostu tego jeszcze nie umiem zrobić. To jest analiza zdjęć. Analiza zdjęć pod takim kątem na przykład, żeby umiała rozpoznać, to są schody czy mają poręcze, jakie są wysokości, stopnie, czy są oznaczone kontrastowo itd. I to już modele sztucznej inteligencji oczywiście potrafią robić. Problem troszeczkę jest jeszcze z tym, żeby prawidłowo obliczały wymiary, ale to jest problem natury bardziej technicznej. Na to są sposoby, też jakieś tam na rozwiązanie tego problemu.

Ale, w każdym razie, zobacz. Zdjęcie schodów połączone z taką bazą, jak u mojej Ally. Może powiedzieć na przykład: tutaj jest pięć schodów, każdy ma wysokość osiemnastu centymetrów, to jest dziewięćdziesiąt centymetrów różnicy, potrzebna jest pochylnia o długości… Jedenastu metrów.

Magda Brumirska-Zielińska

O, kurczę.

Jacek Zadrożny

I to jest jak najbardziej do zrobienia. Poza tym, może powiedzieć, że szerokość tych schodów wynosi sześć metrów. Bardzo szerokie, ale to tylko przykład. W związku z tym potrzebna jest jeszcze jedna poręcz pośrodku, bo jej tam nie ma. Wyobrażasz sobie takie coś?

Magda Brumirska-Zielińska

Świetne.

Jacek Zadrożny

A drugie, bo jak mówię, tych pomysłów, to ja mam w głowie mnóstwo. Tylko ktoś musi to zrobić.

Masz plan budynku. I masz model, który potrafi taki plan budynku przeanalizować i wskazać miejsca problematyczne. Czyli na przykład, o tutaj widzę, że są szklane drzwi, więc trzeba sprawdzić, czy one są prawidłowo oznaczone.

Magda Brumirska-Zielińska

Słuchaj, a jakby w ogóle ten model analizował film z przejścia przez ten budynek?

Jacek Zadrożny

Tak, to jest tylko kolejny etap. Wiesz, to trzeba sprawdzić, jak to działa na zdjęciach, a potem przejście na wideo nie jest już takim wielkim wyzwaniem. To jest tylko kwestia mocy obliczeniowej.

No, ale tak jak mówię z tego więcej, który mam w głowie. Jeden pomysł, on nie jest tak naprawdę mój, ale uważam za genialny. Szkoda, że nie kontynuowany.

Mianowicie podczas jednego z hackathonów, które organizowało Ministerstwo Funduszy, grupka programistów zrobiła aplikację dla osób poruszających się na wózkach. Taką, w której można, byłoby oznaczać miejsca niedostępne. Tyle że – takich aplikacji oczywiście powstawało więcej. Nawet na tym Hackathonie powstały ze trzy. Ale oni podeszli tylko zupełnie inaczej. Mianowicie to była aplikacja, która zbierała te informacje w sposób automatyczny. Wykorzystywała te wszystkie czujniki, które są w telefonie, wygodne do użycia, czyli na przykład akcelerometry. Jak się nazywa to, co w samolotach wyznacza poziom? Uciekł mi słowo.

Magda Brumirska-Zielińska

Nooo, te, co wyznaczają poziom.

Jacek Zadrożny

Tak [śmiech]. Kompas, i tak dalej. I zapisywały. I to po prostu chodzi sobie w tle, tak jak mapy Google.

Magda Brumirska-Zielińska

Czyli tak, automatyczne sprawdzanie, czy jest korek albo czy jest tłum w sklepie.

Jacek Zadrożny

Tak, a tutaj na przykład było tak, że ktoś jeżdżący na wózku tutaj zjechał i był silny wstrząs. Czyli coś jest nie tak, nie ma tu wygodnego zjazdu.

Albo gdzieś się wturlał po pochylni. I widać było z tych z tych wskaźników, że ta pochylnia jest za stroma. Albo że nie ma odpowiedniego spocznika po drodze. Albo jeszcze inne rzeczy. Gdzieś się osoba na wózku zatrzymuje przed jakimi drzwiami i spędza tam nadmiernie dużo czasu. No to już jest jakaś taka taka lampka do zapalenia, że może coś z tymi drzwiami jest nie tak. Zoże ciężko się otwiera, może są za wąskie, może coś, może coś. W każdym razie daje już taki sygnał.

No więc to są takie rzeczy, które sztuczna inteligencja może zrobić.

O, jeszcze jedno! Miałem pomysł, niezrealizowany, z kolei innym jeszcze Hackathonie. Mianowicie: nikt nie wie, gdzie są miejsca parkingowe dla osób niepełnosprawnych.

Magda Brumirska-Zielińska

To prawda.

Jacek Zadrożny

Ale dysponujemy zdjęciami satelitarnymi.

Magda Brumirska-Zielińska

Niby tak.

Jacek Zadrożny

Więc z takiej analizy zdjęć satelitarnych można by było spokojnie zrobić mapę miejsc parkingowych.

Magda Brumirska-Zielińska

Zakładając, że będą pomalowane na ten zgodny z wytycznymi odcień koloru niebieskiego i będą mieć namalowaną kopertę.

Jacek Zadrożny

Oczywiście, że zakładając. To nie jest tak, że sztuczna inteligencja jest wszech wiedząca i wszechmocna.

Magda Brumirska-Zielińska

Bo czasami ludzka głupota może ją pokonać.

Jacek Zadrożny

Tak, spokojnie [śmiech]. Natomiast jeżeli spełnione są te podstawowe warunki, to zmapowanie takich miejsc parkingowych też powinno być dość proste.

No więc mówię, jest dużo naprawdę takich rzeczy, które ta inteligencja mogłaby zrobić, jeżeli tylko dać ludzi, którzy by do tego usiedli.

Magda Brumirska-Zielińska

Moi drodzy, jeżeli słuchają nas ludzie dysponujący bardzo dużymi funduszami i chcący stworzyć startupa, to ja wam bardzo polecam Jacka Zadrożnego.

Jacku, gdzie w internecie można cię znaleźć?

Jacek Zadrożny

Jestem na LindekIn, jak się przełamie przez jaczad, bo to jest taki mój nick, rozpoznawalny prawie wszędzie. To jest mój profil. Zachęcam do to mojego newsletttera.

Magda Brumirska-Zielińska

Bardzo dobrego.

Jacek Zadrożny

Dziękuję ci bardzo. To jest dostępnik.substack.com. No i gdzie jeszcze? No jeszcze na stronie AutomaticA11y. Ona nie jest jakoś bardzo aktualizowana, ale to jest po prostu stronka wydarzenia. Właśnie powoli zapraszam ludzi do tego, żeby zgłaszali swoje prezentacje, opisy produktów, usług, stoliki tematyczne. Co tam sobie kto wymyśli, że chciałby robić podczas AutomaticA11y.

Nie wiem, co jeszcze. Facebook jest dla mnie środowiskiem absolutnie już nieznośnym, chętnie bym całkiem z niego uciekł, ale póki co jeszcze nie bardzo mogę.

Z Twittera się wycofałem. Gdzie jeszcze mogę… A, jeżeli ktoś się zajmuje sztuczną inteligencją, to jestem na Hugging Face, oczywiście też. i też mam tam właśnie, jak się przełamie przez „jaczad”, to jest tam mój profil.

Nie wiem, gdzie jeszcze. Jestem na Githubie, ale tam nic specjalnie ciekawego nie ma.

Magda Brumirska-Zielińska

Myślę, że dobrym początkiem jest wpisanie w waszą ulubioną wyszukiwarkę hasła „Dostępnik”. To jest chyba jedyne pod tym hasłem miejsce w polskim internecie. I z Dostępnika już przejdziecie wszędzie, gdzie trzeba.

Jacek Zadrożny

Tak.

O, ale jeżeli mogę zareklamować jeszcze, to odpaliłem, na prośbę czytelniczki Dostępnika zresztą, kanał na Slacku. Jeżeli ktoś chce, też sobie może poszukać „Dostępnik” i tam już jest sporo ludzi, głównie zajmujących się dostępnością cyfrową na razie. Ale mam nadzieję, że pojawią się też ludzie z innych działek. Tam sobie rozmawiamy. Informujemy o wydarzeniach, tego typu rzeczy robimy.

Magda Brumirska-Zielińska

Więc czekamy na maj i na następne AutomaticA11y. Czekamy na kolejne teksty z Dostępnika. Czekamy na te momenty, kiedy ktoś w internecie powie nam, że możemy Jacka usłyszeć na żywo lub online, bo to jest zawsze fajna, wartościowa treść związana z dostępnością. Jacku, ogromnie dziękuję ci za dzisiejszą rozmowę.

Jacek Zadrożny

Ja również bardzo ci dziękuję i przepraszam, że się rozgadałem, ale powycinaj jest sobie co tam będziesz potrzebowała.

Magda Brumirska-Zielińska

Dobrze dzięki wielkie. Moi drodzy, to był Podcast o Dostępności. Ja nazywam się Magda Brumirska-Zielińska. Już wkrótce kolejne odcinki. Do usłyszenia.

Justyna Mańkowska-Kaczmarek

Jeśli chcesz dowiedzieć się więcej na temat dostępności, zacząć działać albo sprawdzić inne tematy, które poruszamy w podcaście, znajdziesz nas na Spotify lub w innym miejscu, w którym słuchasz podcastów, na YouTubie, czy stronie www.kulturadlawszystkich.pl. Nasze podcasty mają transkrypcję, gdybyś chciał polecić je osobie słabosłyszącej. Link znajdziesz w opisie podcastu. Polecamy ci także strony www.fundacjakatarynka-test.websitespace.eu. i wwa.adapter.pl, czyli pierwszy portal filmowy z audiodeskrypcją, napisami i tłumaczeniem na Polski Język Migowy.

Zadanie publiczne jest współfinansowane ze środków Państwowego Funduszu Rehabilitacji Osób Niepełnosprawnych otrzymanych od urzędu Marszałkowskiego województwa dolnośląskiego z siedzibą we Wrocław.