Jacek Zadrożny. Sztuczna inteligencja w dostępności
Gość: Jacek Zadrożny
Rozmawia: Magda Brumirska-Zielińska
Magda Brumirska-Zielińska rozmawia z Jackiem Zadrożnym o sztucznej inteligencji i jej zastosowaniach w dostępności. Dowiecie się, jak AI może wspierać osoby z niepełnosprawnościami – od syntezy mowy i transkrypcji, przez teksty alternatywne, aż po audiodeskrypcje.
Magda i Jacek wskazują na wyzwania, przed jakimi stoi technologia sztucznych inteligencji, takich jak tłumaczenie języka migowego czy projektowanie dostępnej architektury. Podkreślają, że choć AI ułatwia życie, nie zastąpi człowieka, a jej użycie wymaga cierpliwości i dopasowania do indywidualnych potrzeb.
Ciekawi cię, jak technologia wpływa na dostępność w praktyce? Posłuchaj tej rozmowy!
W tym odcinku:
- Czym jest sztuczna inteligencja i jak może wspierać dostępność.
- Jakie narzędzia i potrzeby mogą być wspierane przez sztuczną inteligencję: od generowania tekstów alternatywnych po audiodeskrypcję.
- Wyzwania w maszynowym tłumaczeniu języka migowego i rozpoznawaniu gestów.
- Możliwości AI w analizie architektury i poprawie dostępności budynków.
Przydatne linki:
Media Jacka Zadrożnego:
Dostępnik https://dostepnik.substack.com/
Konferencja Automatica11y https://automatically.pl/
Ally. Asystentka koordynatora dostępności https://jaczad-ally.hf.space/
Hugging Face https://huggingface.co/jaczad
LinkedIn https://pl.linkedin.com/in/jaczad
Narzędzia korzystające z AI:
Chat GPT https://chatgpt.com/
Beey https://beey.io
Whisper https://openai.com/index/whisper/
Jupyter Notebook https://jupyter.org/
Be My Eyes https://www.bemyeyes.com/language/polish
Be My AI https://www.bemyeyes.com/blog/introducing-be-my-ai
Tłumacz Google https://translate.google.pl/
Komentarz do filmu w stylu Davida Attenborough https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding
Transkrypcja podcastu:
Justyna Mańkowska-Kaczmarek
Cześć! Tu Fundacja Katarynka. Działamy od 2010 roku, by zmieniać świat na bardziej dostępny.
Zapraszamy cię na spotkania z praktykami, dostępności, jej odbiorcami i ludźmi kultury.
To jest podcast o dostępności.
Magda Brumirska-Zielińska
Dzień dobry wszystkim witamy w kolejnym odcinku Podcastu o Dostępności. Ja nazywam się Magda Brumirska-Zielińska, a moim gościem jest dzisiaj Jacek Zadrożny.
Jacek Zadrożny
Dzień dobry, dzień dobry, Magda.
Magda Brumirska-Zielińska
Dzisiaj porozmawiamy o czymś trochę innym, niż w naszych ostatnich odcinkach, dlatego że będziemy z Jackiem rozmawiać o technologii i to o bardzo konkretnym fragmencie nowoczesnej technologii. Jacek, ty jesteś specjalistą od dostępności cyfrowej, a może opisujesz sam siebie w jakiś inny sposób?
Jacek Zadrożny
No rzeczywiście, ja teraz piszę o sobie raczej „ekspert do spraw dostępności”, kiedyś głównie cyfrowej, a teraz zagłębiający się w różne obszary dostępności architektonicznej, informacyjno-komunikacyjnej. Przy czym w tych kolejnych oczywiście nie czuję się ekspertem jeszcze, natomiast dużo wiem, bo się nauczyłem między innymi przy tych rzeczach, które dłubię. W związku z tym, z czym się chyba spotkaliśmy, z tym tematem.
Magda Brumirska-Zielińska
Tak, bo naszym tematem konkretnie będzie dzisiaj sztuczna inteligencja i możliwości jej wykorzystania w dostępności, szczególnie dla osób z niepełnosprawnościami.
Jacek Zadrożny
Tak i to ten temat jest dla mnie szczególnie bliski. Pół roku temu zorganizowałem takie wydarzenie, AutomaticA11y (czyt. Automatikali), które właśnie dotyczyło tego styku sztucznej inteligencji z dostępnością. No i planuję, że w maju przyszłego roku również takie się wydarzy, bo dzieje się bardzo dużo, bardzo szybko i warto nadążać z takimi tematami.
Magda Brumirska-Zielińska
Pierwsza edycja AutomaticA11y, pomimo tego, że mocno siedziała w temacie właśnie sztucznej inteligencji, była też bardzo rozległa, jeżeli chodzi o tematykę. Bo były tam osoby, które opowiadały o możliwościach tworzenia tekstów łatwych w czytaniu i rozumieniu, o możliwościach syntetyzowania głosu na podstawie posiadanych już próbek, ale też np. specjaliści od e-commerce, którzy opowiadali o implementacji tego tematu w świecie sprzedażowym. Jaki jest plan na kolejny rok?
Jacek Zadrożny
Moim celem jest to, żeby trochę bardziej uderzyć w tą część dostępności, która tam była mniej reprezentowaną. No, prawie wcale nie była, tak naprawdę, reprezentowana. Czyli dostępność architektoniczna. Ale oczywiście, te pozostałe obszary dostępności również będą pokazywane, w tym także takie nieoczywiste.
Oprócz tego spodziewam się, że będzie też Filip Dzięcioł, którego prezentacja się bardzo podobała. Filip chyba zresztą też się Paniom bardzo podobał. I on ustalał na razie ze mną temat, ale spotkałem go w Poznaniu, i on tam zainteresował się różnymi obszarami, o których w ogóle nie wiedział. Na przykład rozpoznawaniem i generowaniem języka migowego. No więc zobaczymy, co nam z tego wszystkiego powychodzi. Na razie jeszcze jesteśmy na bardzo wczesnym etapie organizowania, więc jak będzie całościowo wyglądał cały projekt AutomaticA11y, to jeszcze nie wiem. To się dopiero okaże, pewnie za jakieś trzy miesiące.
Magda Brumirska-Zielińska
Po tej pierwszej konferencji, po pierwszym AutomaticA11y, ja miałam mnóstwo pytań, takich po prostu do świata. Czy rzeczywiście kiedykolwiek uda się zrobić tłumacza migowego wspomaganego przez sztuczną inteligencję? Czy rzeczywiście sztuczna inteligencja może wspomagać dostępność architektoniczną? Ja myślę Jacku, że do tych różnych pytań i różnych sposobów zastosowania sztucznych inteligencji przejdziemy za moment.
Bo co my w zasadzie tutaj rozumiemy jako sztuczne inteligencje? Może od tego powinniśmy zacząć. Nie będziemy wchodzić, oczywiście, w bardzo techniczne szczegóły, tłumaczyć, na czym to wszystko polega. Ale jak ty byś zdefiniował sztuczne inteligencje, szczególnie te, które pracują dla dostępności?
Jacek Zadrożny
W zasadzie to jest tak, że definicja sztucznej inteligencji jest dość prosta. To jest oprogramowanie, które potrafi wykonywać czynności zamiast człowieka. W związku z tym już dawno tak naprawdę mieliśmy dostęp do narzędzi sztucznej inteligencji. Na przykład, kiedy korzystaliśmy z oprogramowania do rozpoznawania tekstu.
Z syntezy mowy też korzystamy już od bardzo, bardzo wielu lat. Być może ludzie o tym nie wiedzą, ale pierwszy syntezator mowy powstał jeszcze przed II wojną światową. To są wszystko rzeczy, które możemy spokojnie nazwać sztuczną inteligencją. Choć wiem, że tak naprawdę większość ludzi pod tym pojęciem rozumie to, co się teraz dzieje od dwóch lat, czyli tak zwana generated… Nie wiem, jak to po polsku się mówi, generatywna chyba. Generatywna sztuczna inteligencja.
Magda Brumirska-Zielińska
Albo twórcza. Może to jest głupie słowo, żeby mówić o sztucznej inteligencji jako czymś twórczym, ale to jest chyba najlepsze tłumaczenie.
Jacek Zadrożny
Ale ja myślę, że spokojnie można mówić, że jest twórcza.
Magda Brumirska-Zielińska
To pogadaj z artystami.
Jacek Zadrożny
Bardzo chętnie pogadam z artystami. Natomiast to jest jedna część tego obszaru, ale jest cała masa innych rozwiązań, które nazywamy sztuczną inteligencją, które na przykład zajmują się nie generowaniem, a analizowaniem, na przykład obrazu, dźwięku. Przecież to, co robi Whisper, czyli przetwarza mowę na tekst, to nie jest generatywna sztuczna inteligencja. Albo może jest i taka, i taka, żeby być tak już zupełnie dokładnym. Krótko mówiąc, chodzi o to, że sztuczna inteligencja to jest taki rodzaj technologii, oprogramowania najczęściej, który może zastąpić człowieka w pewnych czynnościach.
Magda Brumirska-Zielińska
Dobra. Zastanówmy się, co ta sztuczna inteligencja w tej chwili potrafi, bo ChatGPT wspiera ludzi już w bardzo, bardzo wielu różnych formach pisemnych, natomiast mamy mnóstwo innych opcji. Myślę, że tak jak powiedziałeś, syntezatory mowy, to jest coś, co jest znane od lat. Takim chyba najbardziej popkulturowym przedstawieniem, najbardziej znaną osobą, która z tego korzystała, był profesor Hawking.
Jacek Zadrożny
Tak, przy czym pamiętasz, jak on brzmiał? On korzystał z dosyć takiego, prostego, analogowego nawet bym powiedział, syntezatora mowy. Który go tak naprawdę wspomagał, a nie syntetyzował od początku do końca.
Magda Brumirska-Zielińska
Tak, ale pamiętam, że chyba to było tak, że on w którymś momencie po prostu zdecydował, że kiedy przesiadał się już na bardziej zaawansowane systemy, to zostawiał sobie ten sam głos.
Jacek Zadrożny
No bo był rozpoznawalny.
Magda Brumirska-Zielińska
To był jego głos.
Jacek Zadrożny
Przecież, tak. Natomiast a propos syntezy mowy, to rozwój jest teraz tak niesamowity, że jeżeli spojrzeć na rozwiązania, to właściwie mogę powiedzieć, że polskiej firmy Eleven Labs, która jest teraz globalną marką. No, to są głosy, których moim zdaniem człowiek nie odróżni od zwykłego ludzkiego głosu. Oczywiście, te wysokiej jakości. To nie jest tak, że usłyszy, a sztuczna mowa to już nie ten etap, to jest dokładnie to narzędzie, które pokazywał Piotr Witek przy generowaniu swojego audiobooka.
Magda Brumirska-Zielińska
Tak, i to, co pokazał na AutomaticA11y Piotr Witek, było bardzo imponujące.
Dla osób, które na AutomaticA11y nie były. Wyglądało to tak, że Piotr napisał książkę i postanowił zsyntetyzować ją do audiobooka. Nagrał parę chyba godzin próbek swojego własnego głosu.
Jacek Zadrożny
Nieee.
Magda Brumirska-Zielińska
Ale dość długi materiał.
Jacek Zadrożny
Nagrał sporo, ale próbki mogą być krótkie. Nawet dobrze, jak są nie za długie, bo wtedy są takie jednolite. Tak natomiast musiało po prostu wypróbować trochę tych kawałków nagrań.
Magda Brumirska-Zielińska
Tak, tak. Natomiast z tego rzeczywiście udało się zsyntetyzować audiobooka, który brzmi tak, jakby czytał go autor.
Jacek Zadrożny
Dokładnie tak, nie wiem, czy pani też, ale też bezczelnie ukradł mój głos.
Magda Brumirska-Zielińska
Sala zamarła.
Jacek Zadrożny
[Śmiech].
Magda Brumirska-Zielińska
Bo wiecie, Jacek nam powiedział parę słów do mikrofonu na początku konferencji. A potem na scenę wchodzi Piotr Witek, który z syntezatora Puszcza głos Jacka, mówiący nam, że to jest mój ukradziony głos, który został przesyntetyzowany i wygenerowany przez sztuczną inteligencję.
Jacek Zadrożny
No, także mówię, takie mogą być efekty, jak ktoś się weźmie dobrze za odpowiedni kawałek sztucznej inteligencji.
Magda Brumirska-Zielińska
Co natomiast z transkrypcją? Bo transkrypcja to też jest dosyć już wyeksploatowane pole, jeżeli chodzi o dostępność i o automatyzację.
Jacek Zadrożny
To prawda, ja jednak myślę, że warto jeszcze ciągle w tym grzebać i uczyć się, jak to działa. To są doświadczenia mojej przyjaciółki z Rabki Zdroju, Ani, która zrobiła właśnie napisy do filmów z AutomaticA11y. I ona zauważyła ciekawe zjawisko, mianowicie to, że te napisy na początku są bardzo dobre, a potem się psują z czasem. I to nie znaczy, że ci ludzie mówią gorzej, po prostu sztuczna inteligencja to nie jest taki algorytm, który działa zawsze dokładnie tak samo. I trzeba znaleźć rozwiązanie dla takiego problemu. On zresztą występuje w większości generatywnych, sztucznych inteligencji, i w tych analitycznych też, że środek materiału przeważnie jest najgorzej obsługiwany. Zwłaszcza, jeżeli ma duży kontekst. Więc tutaj rozwiązaniem byłoby prawdopodobnie pocięcie tego nagrania na krótsze kawałki puszczenie ich oddzielnie.
No, ale to są właśnie takie eksperymenty, które trzeba robić, żeby dobrze wykorzystać sztuczną inteligencję.
Magda Brumirska-Zielińska
Ja jestem najbardziej zaznajomiona z systemem do transkrypcji, który nazywa się Beey.io. Ja w ogóle linki do wszystkiego, o czym rozmawiamy, wrzucę w opis naszego dzisiejszego podcastu. Więc jeżeli chcecie kliknąć w coś, poszukać czegoś nie musicie googlać, będziecie mieli w opisie.
Więc Beey jest całkiem fajnym systemem, bardzo dobrze radzi sobie z rozpoznawaniem mowy po polsku, co jeszcze parę lat temu nie było takie oczywiste. Natomiast nadal słabo radzi sobie z osobami, które nie mówią zbyt wyraźnie. Więc jeżeli mamy osobę, która się jąka, która ma jakąś wadę wymowy, która mamrocze z jakiegoś powodu, albo po prostu ząb ją boli – no to tam się pojawią problemy. problemy się pojawią przy transkrypcji nazw własnych, nazwisk, słów zapożyczonych z obcych języków. Wszystkich tych rzeczy, które nie są oczywiste.
Jacek Zadrożny
To prawda. I to jest właśnie dowód na to, że sztuczna inteligencja jest tylko naszym pomocnikiem, ale nas nie zastąpi. Bo oczywiście, taki tekst trzeba przejrzeć, poprawiać, natomiast nie trzeba go przepisywać w całości.
Magda Brumirska-Zielińska
I to jest ułatwienie życia.
Jacek Zadrożny
Tak, a poprawienie tekstu już wygenerowanego na przykład z godzinnego podcastu, to jest nic w porównaniu z tym, co by nas czekało, gdybyśmy mieli to przepisać słowo po słowie. To jest zupełnie inna kultura pracy.
Magda Brumirska-Zielińska
Przepisywanie ze słuchu osobie, która jest już w tym temacie w miarę przećwiczona i biegła zajmuje tak dwa, trzy razy więcej czasu, niż trwa sam materiał. Minimum
Jacek Zadrożny
No to godzinne nagranie na moim komputerze przetwarza około kwadransa.
Magda Brumirska-Zielińska
Tak, możesz sobie pójść i robić coś innego, bo to się robi w tle.
Jacek Zadrożny
Mogę też pracować dalej na komputerze.
Magda Brumirska-Zielińska
Mnóstwo systemów ma też taką funkcję, że tę transkrypcję później potnie na kawałki i zrobi napisy. Jeżeli kazaliśmy jej zrobić transkrypcję do filmu.
Jacek Zadrożny
Wiesz, co, to jest tak, że ten mój ulubiony model, czyli Whisper 3, ma tak, że na wyjściu daje aż pięć różnych plików do wyboru. Znaczy, „do wyboru”, można wygenerować sobie wszystkie. W tym dwa to są napisy. Czyli po pierwsze jest oczywiście ten słynny .srt, najczęściej używany. A drugi to jest WebVTT, który jest takim standardem sieciowym. Szkoda, że tak rzadko używanym, bo on pozwala na przykład na kolorowanie i formatowanie tekstu. Więc tak naprawdę Whisper wypluwa od razu napisy razem z tymi wszystkimi czasówkami, razem z informacjami, że gdzieś tam jest muzyka. Jakieś inne dźwięki pewnie też potrafi rozpoznawać, ale akurat ja nie miałem materiałów, które by miały takie dźwięki, bo zazwyczaj robię jednak po prostu transkrypcje prezentacji.
No i oprócz tego oczywiście mamy format .txt, .rtf i ich bodajże Json. Więc tak, on potrafi wypluć od ręki napisy odpowiednio też zsynchronizowane. Czy to nie wymaga poprawienia? Oczywiście, że wymaga, ale znowu – pracy jest zdecydowanie mniej.
Magda Brumirska-Zielińska
Czyli w zasadzie te dwa systemy każde z nas może polecić, ponieważ one robią w zasadzie to samo.
Jacek Zadrożny
Ja bym się nie założył czy tam w tej twojej usłudze właśnie nie jest mój Whisper pod spodem.
Magda Brumirska-Zielińska
Nie wykluczam.
Okej, czyli jedną rzeczą są transkrypcję i napisy, jedną rzeczą jest synteza mowy. Co natomiast z obrazkami? I to w jedną i w drugą stronę, bo i w jedną, i w drugą stronę praca z obrazem może być dla dostępności przydatna.
Jacek Zadrożny
Ja dokładnie dwa lata temu, jak się zaczęła ta cała rewolucja sztucznej inteligencji (bo dwa lata temu OpenAI uruchomił ten swój pierwszy model GPT, bodajże to było 3,5), ja też testowałem różne rozwiązania dotyczące analizy obrazu. I drugiego listopada na konferencji w Lublinie pokazałem, jak to beznadziejnie działa i w związku z tym nic z tego nie będzie. Rok później wszystko odszczekiwałem pod stołem, a dowodem na to, jak dużo się zmieniło, był taki opis, który tobie wysłałem podczas Forum, tak podczas Forum czy podczas targów.
Magda Brumirska-Zielińska
Podczas Targów Dostępności w Opolu.
Jacek Zadrożny
A czyli Targów.
No więc teraz są już takie narzędzia do analizy obrazu, które naprawdę są absolutnie wystarczające do przygotowania tekstu alternatywnego. Oczywiście, jeżeli ktoś potrzebuje bardziej konkretnych informacji, no to musi je wstawić już ręcznie. Tam akurat wysłałem ci wygenerowany opis do takiego zdjęcia, gdzie ja razem z Łukaszem Żmudą mówimy do mikrofonów podczas panelu właśnie o sztucznej inteligencji. Bardzo ładnie to wszystko opisał. Poza tym jednym, że oczywiście on nas nie znał, więc mógł powiedzieć tylko, że jest jeden mężczyzna, drugi mężczyzna. Ale opisał to doskonale, razem z kolorem krzesełek i logotypami, i całą resztą. Więc jeżeli bym chciał, żeby tam było napisane, że to jest ten ja, no to już to muszę ręcznie poprawić, ewentualnie nauczyć sztuczną inteligencję, że ta morda to jestem ja. Więc to już można spokojnie robić.
Czy to zawsze będzie idealnie? No nie, oczywiście, że nie. Dlatego, że czasem taki tekst alternatywny wymaga opisu czegoś mniej typowego niż jeden facet i drugi facet, mikrofony, sala i logotypy. Bo to może być na przykład zdjęcie jakiegoś mikroorganizmu, albo fragment jakiejś powierzchni widzianej przez satelitę. No i w tym momencie może się okazać, że to, co normalnie by działało, to tu przestaje działać, bo sztuczna inteligencja opisuje tylko to, co widzi, a nie to, co tam jest.
Magda Brumirska-Zielińska
Bo nie zna kontekstów. My je znamy. Oczywiście, ten sam problem będzie przy zdjęciach z konkretnych wydarzeń, na których my wiemy, kto stoi na scenie, kto stoi przy mikrofonie, co to jest za wydarzenie, gdzie i kiedy się odbyło.
My ten kontekst mamy, i musimy go dodać.
A przypomnij, proszę, jakiego narzędzia użyłeś wtedy do stworzenia tego tekstu alternatywnego.
Jacek Zadrożny
Tego najpopularniejszego, czyli używanego przez osoby niewidome Be My Eyes, czy tam w tym wypadku Be My AI, które robi to doskonale, to jest mistrzostwo świata. Dlatego, że korzysta co prawda ze standardowego modelu computer vision, ale zostało sprofilowane i doszkolone na potrzeby osób niewidomych. To znaczy, że konkretnie dla osób niewidomych jest przygotowywany taki opis alternatywny. No i to widać, to widać tak standardowo, jak to się uczy zazwyczaj, od ogółu do szczegółu dokładnie tak jest skonstruowany ten tekst alternatywny.
To jest właśnie wykorzystanie konkretnego modelu już istniejącego do tego, żeby wykonywał bardzo konkretne zadania.
Magda Brumirska-Zielińska
Czy Be My AI jest też dostępne dla osób widzących, czy to jest tylko funkcja tej części Be My Eyes, która jest dostępna dla osób, które nie widzą?
Jacek Zadrożny
Wiesz co, nie mam pojęcia.
Magda Brumirska-Zielińska
Czyli to jest do sprawdzenia.
Jacek Zadrożny
To jest do sprawdzenia. Wiem, że jak się zalogowałem, to mogłem używać. Przy czym do ciebie akurat wysłałem opis z aplikacji mobilnej, natomiast ja na co dzień korzystam też takiej wersji na Windows, ona jest w sklepie Windows Store. Można sobie pobrać. To bardzo mi pomaga podczas codziennej pracy.
Naprawdę bardzo użyteczna.
Magda Brumirska-Zielińska
Czyli wszędzie tam, gdzie w internecie nie ma tekstu alternatywnego ty wspomagasz się przez Be My AI.
Jacek Zadrożny
Nie tylko.
Magda Brumirska-Zielińska
O, nie tylko.
Jacek Zadrożny
Dlatego, że on może mi opisać w ogóle, co jest na stronie internetowej. I całkiem niedawno mi się to bardzo przydało. Bo był formularz, który był zaprojektowany, tak, że z czytnikiem nie bardzo dawało się go używać. Odpaliłem Be My Eyes, i dopytałem o różne szczegóły. I już mogłem używać. To znowu jest taka… To właśnie polega między innymi na tym, że on wie, czego ja jako osoba niewidoma mogę chcieć się dowiedzieć. Kiedyś zrobiłem zdjęcie mojej zmywarki i on wiedział, że ja pewnie będę chciał wiedzieć, jak są przyciski poukładane, i dokładnie to mi opowiedział. Nie opowiada mi za bardzo o kolorach i takich rzeczach, bo to jest mniej istotne, ale oczywiście mogłem dopytać też, jakby mnie interesował kolor, to spokojnie mogłem zapytać. Zresztą, pytałem o kolory, też pytałem. Jeżeli chodzi o napisy.
Magda Brumirska-Zielińska
Podejrzewam, że on też wyciąga dane z pytań, które dostaję od innych osób. Strasznie śmieszne jest to w kontekście tłumacza Google, powiem ci. Ja z moimi rodzicami siedzę dużo na Duolingo, uczymy się języków. I mój tata ma taką konspiracyjną teorię, że Google się na pewno z tym Duolingo spiknął i sobie nawzajem płacą, bo jak tata wpisuje w tłumacza Google jakieś zdanie z Duolingo, to ten tłumacz mu natychmiast podpowiada, co tam będzie dalej i to się zgadza [z tym, co jest w aplikacji]. Ale tata zapomina, że te zdania są ćwiczone przez miliony ludzi na świecie i oni też wpisują te same pytania w tłumacza Google.
Jacek Zadrożny
Tak, to w ogóle sobie warto zdawać sprawę, że głównymi dostawcami treści do takich… tłumacz Google też jest sztuczną inteligencją.
Magda Brumirska-Zielińska
Oczywiście.
Jacek Zadrożny
To jesteśmy my, tak naprawdę. No bo skąd Mapy Google wiedzą o tym, że gdzieś jest korek? No przecież to nie jest tak, że Google to sprawdza, ktoś tam jedzie i patrzy, czy jest korek. On wie to z naszych telefonów.
Magda Brumirska-Zielińska
No tak, jeżeli dużo telefonów, które się łączą z Google, przed chwilą jechało dość szybko, a teraz stoją wszystkie w jednym miejscu, to musi mieć jakąś przyczynę.
Jacek Zadrożny
Dokładnie tak.
Jacek Zadrożny
No z tego samego powody, chociaż… Powiem ci ciekawostkę. Mianowicie kiedyś taki Niemiec postanowił zrobić taki trolling. Zebrał sobie od znajomych kupę telefonów komórkowych…
Magda Brumirska-Zielińska
Znam tę historię.
Jacek Zadrożny
Wszystkie je uruchomił i wsadził do wózka dziecięcego. I tak sobie szedł po ulicy, i wszyscy mieli informację, że tam jest korek, bo tyle telefonów tam porusza się bardzo wolno.
Magda Brumirska-Zielińska
Tak, tak ogólnie. To zbieranie danych z map Google jest na dłuższą metę rzeczą, która ułatwia nam życie. Nawet w takich głupich momentach, kiedy trzeba zdecydować, czy pójść do sklepu na zakupy teraz, czy trochę później, bo Google mówi ci czy tam teraz jest tłok.
Jacek Zadrożny
Tak. Czasem o to pyta na przykład czy w autobusie było ciasno?
Magda Brumirska-Zielińska
Jacek Zadrożny
Tak. Więc też można poinformować o tym, że w tych godzinach jest tam ciasno, a w tych godzinach jest tam luźniej.
Magda Brumirska-Zielińska
To jest funkcja, która mnie nigdy nie złapała. Z takim pytaniem.
Jacek Zadrożny
Może nie jeździsz komunikacją.
Magda Brumirska-Zielińska
Jeżdżę tylko i wyłącznie komunikacją miejską, chyba że już muszę wsiąść za kółko? Możliwe, że ja po prostu mniej używam funkcji wyszukiwania transportu publicznego.
Jacek Zadrożny
To ja bardzo często.
Magda Brumirska-Zielińska
Ja do tego mam jak dojadę. Które z tego, co pamiętam, jest słabo dostępne?.
Jacek Zadrożny
Tak i wcale nie wiem, czy jest jakoś dużo lepsza od Map Google.
Magda Brumirska-Zielińska
W Google mamy więc możliwość tworzenia tekstów alternatywnych, które mogą być nawet jakąś bazą do audiodeskrypcji, do obrazów. Ja na razie bardzo wątpię w to, czy szybko uda się robić pełne audiodeskrypcje fotografii, obrazów, takie na potrzeby kulturalne. To, co Fundacja Katarynka robi dla muzeów czy galerii. Bo to jednak poza tym, że ma pewną strukturę, ma swój wstęp, ma ogólny opis, ma rozwinięcie, ma na samym końcu konteksty nadane. Nie wiem, czy sztuczne inteligencje szybko nauczą się tych wszystkich kontekstów, które tam jednak trzeba brać pod uwagę przy opisywaniu obrazu na cele właśnie muzealno-galeryjne.
Jacek Zadrożny
To może zacznę od tego, że kiedy ty byłaś na panelu i mówiłaś właśnie o tym, żę z audiodeskrypcją, to nie wiadomo, kiedy pewnie nigdy ja tam siedziałem z tyłu i mocno kręciłem głową. Nie wiem, czy widziałaś.
Magda Brumirska-Zielińska
Siedziałeś za kamerą, więc cię nie widziałam.
Jacek Zadrożny
A, okej. No więc już to jest, to już jest, jeżeli chodzi o opisywanie filmów. Chociaż zaraz powiem, że też częściowo z tobą oczywiście zgadzam. Jak ktoś ciekawy, to na stronie Cookbook od OpenAI jest taki notatnik, Jupiter Notebook to się nazywa. To jest taki specjalny format, gdzie jest kod połączony z tekstem i można uczyć się z tego, jak się programuje. I oni tam zrobili właśnie taki eksperyment, wzięli sobie krótki film przyrodniczy i uruchomili taką właśnie… Dosyć skomplikowana jest ta aplikacja, wtedy chyba nie było prostszych metod. W każdym razie, zażyczyli sobie, żeby, ponieważ był to film przyrodniczy, żeby to było w stylu Davida Attenborough. Mówione chyba nie jego głosem, a przynajmniej, jak mi się wydaje, że to był inny głos. I to jak najbardziej zadziałało.
Magda Brumirska-Zielińska
David Attenborough to jest taka brytyjska Krystyna Czubówna.
Jacek Zadrożny
Tak no więc ten opis był jak najbardziej audiodeskryptywny. Opisał po prostu, że tam są wilki i że atakują jakąś sarenkę czy coś. Dokładnie to, o co chodzi. Co prawda oni tam zrobili to w stylu właśnie takiego komentarza Davida Attenborough, podczas gdy standardowa audiodeskrypcj jednak jest oszczędniejsza w słowa. Tam nikt nie mówił, więc spokojnie można było ją wykorzystać przez cały czas. Ale tak z punktu widzenia audiodeskryptorów to nie była oczywiście taka prawdziwa audiodeskrypcja, ale to tylko kwestia tego, jak się napisze prompty. Niczego więcej. Natomiast, co do tego kontekstu filmów. Przede wszystkim filmów, moim zdaniem, bo dzieła sztuki, to moim zdaniem już można by było robić, ale do tego zaraz przejdę. Natomiast co do filmów fabularnych, to tak. Ja myślę, że tu jeszcze sztuczna inteligencja musi się wielu rzeczy nauczyć. Ale myślę też, że jeżeli dostarczyć pewnych informacji na początku, to znaczy co jest istotne, jak ma postępować, to już by mogła to zrobić.
Oczywiście, że do poprawienia. Jak zawsze, jeszcze raz: sztuczna inteligencja nie ma być zamiast ludzi. Ma być obok ludzi, ma ich wspierać. Natomiast myślę, że to jest już coś do zrobienia. Nie wiem, jak bardzo to by było kosztowne, bo jednak przetwarzanie wideo żre tokeny jak szalone. Ale to jest już moim zdaniem do osiągnięcia.
I teraz to, o czym ty wspominasz, czyli opisy dzieł sztuki. Moim zdaniem tak jak jest to to zrobione na przykład w Wilanowie, gdzie mają takie zasoby zdjęć, 10 000 zdjęć różnych eksponatów, to mając do dyspozycji te informacje plus zdjęcie – ja jestem pewien, że dałoby się już z tego wygenerować bardzo sensownąaudiodeskrypcję. Jestem tego pewien, tylko do tego musi usiąść ktoś, kto wie, jak to się robi i drugi, który wie, jak to zaprogramować.
Magda Brumirska-Zielińska
I to się też trochę bierze. Z tego, że opisy muzealne, takie tworzone na potrzeby archiwów muzealnych, archiwów w galeriach, to jest coś, czego historycy sztuki uczą się na studiach. I one w swojej konstrukcji są całkiem zbliżone do tego, co my robimy, tworząc audiodeskrypcje statyczne do obrazów. Mamy taką audiodeskryptorkę u nas, która jest historyczką sztuki i mówiła, że jej to przychodzi z dużą łatwością, bo po stu pięć lat jej to na studiach ćwiczyli.
Jacek Zadrożny
Więc tak jak mówię. Żeby to zamienić na tekst audiodeskrypcyjny, jest moim zdaniem rzeczą dość prostą. Potem tylko podłączyć syntezę mowy i hajda.
Opowiem ci jeszcze jedną rzecz, jaką eksperymentowałem właśnie z Anią z Rabki Zdroju. Nakręciłem ją trochę właśnie na takie technologiczne rzeczy. I zaproponowałem, żeby zrobiła audiodeskrypcję za pomocą sztucznej mowy do eksponatów, które były podczas takiego corocznego wydarzenia w sierpniu, jakie się w Rabce odbywa, taki piknik historyczny. I też się bardzo dużo nauczyliśmy podczas pracy nad tym. Ona to wykorzystała. To wszystko działało. Kody QR się wygenerowały, i nagrania bardzo fajne. Przy okazji dowiedzieliśmy się, że trochę za wolną syntezę wybraliśmy, bo jednak pani powolutku się bardzo wypowiadała. Ale też nauczyliśmy się jakie są ograniczenia w syntezie mowy, więc wiemy, jak edytować. Nawiasem mówią, Piotrek Witek też napisał na ten temat cały artykuł monografii, chyba dla Akademii Górniczo Hutniczej, o ile pamięć mnie nie myli. Bo to też trzeba wiedzieć, jak taki tekst przygotować i co robić, czego nie robić.
Tak że my się bardzo dużo nauczyliśmy. I cały czas za mną chodzi, żeby przygotować też takie narzędzie, które by takie coś wspomagało. Myślę, że to jest do zrobienia. Ja tu nie chcę mówić, że będziecie niepotrzebni. Ale myślę, że można wam dać do ręki bardzo poręczne narzędzia.
Magda Brumirska-Zielińska
Tak, to prawda, to prawda.
Myślę też o sztucznych inteligencjach i ich w związku z obrazami w drugą stronę, czyli to, czym bawią się od dwóch lat osoby widzące: generowanie obrazów. Bardzo oszczędnie i bardzo testowo sprawdzaliśmy sobie, czy dałoby się [to zrobić] w tekstach ETR, w tekstach łatwych w czytaniu i rozumieniu. One są bardzo sformalizowane, jeżeli chodzi o to, jak mają wyglądać, jak mają teksty być pisane, i do nich mają być zawsze dołączane obrazy. Te obrazy są najczęściej piktogramem, prostą grafiką, czymś trochę zbliżonym do clipartów, które znamy z lat dziewięćdziesiątych i dwutysięcznych. Baza obrazów, która zazwyczaj jest wykorzystywana, jest dostępna na licencji Creative Commons, więc dlatego jest wykorzystywana. Te obrazki po prostu nie są estetyczne, one nie są ładne, one nie są przyjemne do oglądania. Więc sprawdzamy, co da się zrobić, żeby przy użyciu sztucznej inteligencji generować coś w zamian.
Natomiast na razie nasza rekomendacja dla samych siebie jest taka, że musielibyśmy poświęcić…
Jacek Zadrożny
Że jednak nie?
Magda Brumirska-Zielińska
Wiesz co, nie, nawet nie to. Nasza rekomendacja dla nas samych na ten moment jest taka, że mamy trochę za mało czasu na to, żeby porządnie naszą sztuczną inteligencję wytresować, tak, żeby te obrazy były zawsze robione w tym samym stylu, żeby zawsze były do siebie graficznie podobne.
Jacek Zadrożny
Tak, problem powtarzalności jest dość duży. Ale dosłownie dzisiaj albo wczoraj oglądałem taki film na temat dziesięciu nowych modeli. I tam akurat dokładnie mówili o tym problemie. Mianowicie powstał model, który potrafi utrzymywać ten sam styl, i nawet te same postacie wykorzystywać, w różnych generowanych obrazach. To zawsze był problem. Zawsze był problem, że ktoś chciał mieć kilka obrazków z tą samą postacią i standardowe narzędzia nie radziły sobie z tym. Ale już jest taki model, o ile pamiętam, on jest od Microsoftu. I nawet jest chyba dostępny na Hugging Face do wypróbowania, tak że można by też spróbować. A powiedz mi jeszcze, bo teraz w tym podjarałaś, bo temat ETR-ów zawsze nie kręcił. Czy wy to generujecie samodzielnie, czy próbujecie dopasować automatycznie do akapitu do którego ma być ta grafika?
Magda Brumirska-Zielińska
Raczej nie do akapitu. Musimy samodzielnie napisać prompt. Dlatego, że akapit brzmi na przykład „Nasz numer telefonu to 123 456 789”, nie? A obrazek, który temu powinien towarzyszyć, to powinien być – i tutaj spróbuję stworzyć jakiś taki mikroprompt, który bym wpisała: Grafika w stylu takim lekko komiksowym, line art na pewno, czyli mocna, gruba kreska, uproszczone wszystkie szczegóły, przedstawiająca telefon. Najlepiej telefon komórkowy, bo to też trzeba bardzo uściślić. Kiedy się pisze takiego prompta, więc sama treść akapitu niestety nam nie do końca daje prompt, bo ona ma uzupełniać i pomagać zrozumieć akapit.
Jacek Zadrożny
To ja już wiem, jak sobie z tym poradzić. Ale to już nie na tę rozmowę tutaj, bo to się oczywiście da ogarnąć takim repromptingiem jeszcze. To jest akurat bardzo łatwe.
Magda Brumirska-Zielińska
Cudownie. Bardzo mnie to cieszy.
Jacek Zadrożny
Przepraszam, ale po prostu ja tak dużo już się nauczyłem, że czasami widzę od razu rozwiązania pewnych problemów. Nawiasem mówiąc, nie wiem, czy pamiętasz. Na AutomaticA11y była Alicja Maciejewska, która pokazywała, jak próbowała sobie radzić z prostym językiem, z ETR-ami.
Magda Brumirska-Zielińska
Z tekstami. Z samym tekstem.
Jacek Zadrożny
Powiedziała, że sobie z tym sztuczna inteligencja nie radzi. No więc sztuczna inteligencja sobie z tym doskonale poradzi, tylko znowu trzeba wiedzieć, jak to zrobić. Gdyby Alicja użyła wtedy promptów i opisała reguły, jakimi ma się posługiwać sztuczna inteligencja, to efekt byłby zdecydowanie, zdecydowanie lepszy. Ja wiem, bo napisałem sam takie proste narzędzie. Kiedyś dawałem je do testowania. Prostownik się nazywało. I ono działało bardzo dobrze, choć niekonsekwentnie, ale nawet osoby, które studiowały – akurat wtedy pamiętam, że Piotr Witek mówił, że „tu sobie nie poradziło, ale tutaj zadziwiająco dobrze sobie poradziło”. A ona akurat skończył teraz podyplomówkę dotyczącą prostego języka. Strasznie często nam ten Piotr Witek tutaj wypada, prawda.
W każdym razie, ja to narzędzie potem jeszcze poprawiłem. Tylko potem go już nie opublikowałem. Ale muszę je wygrzebać i rzeczywiście opublikować, bo dodałem kilka rzeczy. Więc jak najbardziej, sztuczna inteligencja sobie z tym poradzi. Nie ma problemu, tylko mówię, trzeba wiedzieć jak.
Magda Brumirska-Zielińska
I to nawet te dość ogólnodostępne, sztuczne inteligencje typu ChatGPT. Tutaj nie trzeba chyba szukać bardziej zaawansowanych czy skomplikowanych narzędzi.
Jacek Zadrożny
Nie, nie trzeba, natomiast trzeba go poduczyć jak on ma to zrobić. Bo napisanie tylko, że napisz prostym językiem, to nie jest dla niego za bardzo dobra albo kompletna informacja.
Magda Brumirska-Zielińska
Bo skąd on ma wiedzieć, co to jest prosty język?
Jacek Zadrożny
Otóż to.
Magda Brumirska-Zielińska
Ze sztucznymi inteligencjami, które piszą, i nie tylko, jest tak, że jeśli my im zadamy pytanie o coś, na czym one się kompletnie nie znają, to one zaczną wymyślać i bredzić. To z tego, co wiem, się w ogóle nazywa halucynacje z głodu.
Jacek Zadrożny
Tak, ale to akurat nie jest jeszcze do końca halucynacja.
Mówisz, że się sztuczna inteligencja na czymś nie zna. Otóż sztuczna inteligencja, te modele duże, zostańmy przy tym GPT 4.O, powiedzmy. One wiedzą ogromnie dużo, ale nie wiedzą jednego. Nie wiedzą, co masz w głowie, kiedy piszesz pytanie.
Magda Brumirska-Zielińska
Dokładnie.
Jacek Zadrożny
Jak mu napiszesz dokładnie albo wdasz się w dyskusję po prostu z nim, bo to jest model konwersacyjny, czyli do rozmawiania z nim, to nagle się okazuje, że on tu wszystko ty potrzebujesz, wie. Tylko, że po prostu trzeba widzieć, jak z nim rozmawiać i to jest właściwie klucz. Tak naprawdę trzeba nauczyć się rozmawiać z takim modelem językowym. Jeszcze mi się nie zdarzyło, żebym nie osiągnął tego, co potrzebowałem, choćby nawet trzeba było do tego kilku iteracji.
Moja córka Maja miała pojechać na obóz harcerski jako kadra i miała też przygotować takie zestawienie wart harcerskich. I miała takie założenie, żeby na każdej warcie była inna para albo przynajmniej żeby było tak, że każdy z każdym będzie taką wartę pełnić. Powiedziała mi też, ile godzin trwa taka Warta, ile jest harcerzy. Powiedziała mi, że to jest w parach pełniona taka warta. No i napisałem odpowiedni prompt do ChatagPT, żeby mi też wygenerował od razu Excel. I wiesz, co? On sobie z tym zupełnie nie poradził. Potem go podprowadzałem: że może tak, może tak. Za każdym razem było tak naprawdę coraz gorzej. No i się okazało, że jednak ta sztuczna inteligencja nie zawsze sobie radzi. Ale potem spróbowałem od nowa. I spróbowałem po kroczku, nie tak od razu całe zadanie wrzuciłem, ale tylko po kroczku. Najpierw mu opisałem, ile będzie tych harcerzy, ile będzie tych wacht, żeby mi to rozplanował. Rozplanował mi to. A teraz bym chciał, żeby to było tak, że każdy pełni przynajmniej jedną wartę z kimś innym z drużyny. I jak tak krok po kroku mu to opowiadałem, to się okazało, że już wygenerował prawidłowo. Czyli trzeba czasem po prostu znaleźć sposób na to, jak rozwiązywać problemy, a nie poddawać się od razu, że sobie nie radzi.
Magda Brumirska-Zielińska
Ja powiem ci z kolei, że parę dni temu wrzuciłam w ChatGPT prośbę o podsumowanie jakiegoś dłuższego tekstu w bardzo konkretnej formie. Dałam jako przykład coś, co było przygotowane już wcześniej, z takiej samej serii, żeby ten ChatGPT miał jakąś bazę do myślenia, o tym, jak to ma wyglądać… i on sobie tak dramatycznie tamtego dnia nie radził, że ja po prostu stwierdziłam, że ani on, ani ja nie mamy w tej chwili cierpliwości do tej roboty i spróbujemy kiedy indziej. Trochę się na niego obraziłam. Ale już mi przeszło.
Jacek Zadrożny
Wiesz, bo to jest takie coś, co trzeba zaakceptować. Wiem, że to jest trudne, bo ludziom się zdaje, że przecież to komputer, powinno zawsze działać tak samo. No guzik prawda. Właśnie tak wcale nie jest.
Magda Brumirska-Zielińska
Wiesz, to były rzeczywiście guziki, że kliknij i niech on zrobi to, on by robił dokładnie to, co ma robić ten guzik, ale jest on nie.
Jacek Zadrożny
Nie, wcale nie, właśnie o tym mówię. Dajesz na wejściu to samo i on raz zrobi tak, a raz zrobi inaczej.
Magda Brumirska-Zielińska
A to też jest prawda.
Jacek Zadrożny
Tak że jeszcze raz: trzeba mieć tego świadomość, że to nie jest tak, że jak już coś raz się zrobiło, to będzie zawsze tak samo działać. Absolutnie nie. Dlatego trzeba, mając to w głowie, trzeba po prostu znaleźć takie sposoby na to, żeby ograniczyć te jego… halucynacje, powiedzmy. Bo halucynacja to jest taka sytuacja, kiedy on odpowiada, chociaż nie ma do tego żadnych podstaw. Czyli wymyśla, krótko mówiąc. Ale to już jest coraz rzadziej, dlatego, że zostały wprowadzone algorytmy korygujące. Tej jego halucynacje wynikają z jego wielkiej chęci do pomocy, że chociaż nie wie jak, ale jednak coś podpowie na siłę.
Magda Brumirska-Zielińska
Prosisz mnie, żebym ci coś powiedział, to ja ci o tym coś powiem.
Jacek Zadrożny
Dokładnie tak. No więc teraz są już takie algorytmy korygujące i te halucynacje zdarzają się zdecydowanie, zdecydowanie rzadziej. Ale jeszcze ci jedną rzecz podrzucę. Jak będzie w lepszej formie GPT, żeby zrobiła sobie taki eksperyment, jeżeli gdzieś będziesz pisała wniosek na przykład do jakiegoś urzędu Marszałkowskiego.
Magda Brumirska-Zielińska
[Ironicznie] Och, Jacku, przecież oczywiście, że ja wnioski będę pisała ręcznie, z głowy i samodzielnie.
Jacek Zadrożny
No nie, ale chcę, żebyś zrobiła taki eksperyment. Wrzuć regulamin tego konkursu, wrzuć wzór wniosku, wrzuć to, co chcesz, żeby tam się zadziało, to już w prompcie. I napisz: wypełnij wniosek zgodnie z regulaminem, który ci podałam. Nie mówię, że zawsze wyjdzie, ale często wychodzi.
Magda Brumirska-Zielińska
My to nagrywamy w samym środku trwania naborów na programy ministerialne. Więc temat jest jak najbardziej żywy. Tak, tak.
Jacek Zadrożny
No spróbuj, próbuj.
Magda Brumirska-Zielińska
Zobaczymy, zobaczymy dam ci znać, co mi wyjdzie.
Ja mam jeszcze dwa pytania dotyczące różnych rodzajów sztucznych inteligencji. Co one nam mogą zrobić? Jak mogą nam pomóc, jeśli chodzi o dostępność? I to są chyba te, do których mamy… Jedna jest taka, do której wydaje mi się, że mamy jeszcze daleko, a druga jest taka, o której w ogóle nie myślałam wcześniej, czyli ta architektoniczna. Ale ta, do której mamy daleko: wydaje mi się, że zrobienie sztucznej inteligencji, która będzie tłumaczem języków migowych, to jest niezwykle skomplikowana sprawa.
Jacek Zadrożny
Mi się wydaje, że nie, ponieważ język migowy jest po prostu jednym z języków. I podam to na przykładzie tłumacza Google, który dosłownie kilka miesięcy temu, w lecie jakoś to było, poinformował o tym, że do tłumacza danych jest kolejnych sto czterdzieści parę języków.
To znaczy, że liczba tych języków obsługiwanych zwiększyła się mniej więcej dwukrotnie. Czy myślisz, że ktoś tam naprawdę siedział i uczył się tych języków? Jakiegoś urdu na przykład.
Dlatego mówię: jak się podejdzie do języka migowego, jak do języka, to się może okazać, że to jest dość jednak proste. To, z czym jest problem, to wizualizacja tego.
Magda Brumirska-Zielińska
No właśnie
Jacek Zadrożny
Bo nie ma dość dużo materiałów wideo, które można byłoby wykorzystać jako materiał źródłowy.
Magda Brumirska-Zielińska
Tak.
Jacek Zadrożny
Podobno Migam.org zrobiło taki, korzystając z materiału z BBC. W związku z tym, oczywiście, on rozumiał BSL [British Sign Language]. A po polsku – nie wiem, czy istnieje taki korpus językowy, żeby dało się go wykorzystać do tego, żeby aż tak szybko i sprawnie coś takiego zrobić.
Magda Brumirska-Zielińska
Wiesz co, istnieje korpusowy słownik języka migowego, który raczej zbiera słówka, jest po prostu słownikiem, nie jest korpusem tekstów.
Jacek Zadrożny
To jest za mało, to trzeba mieć materiał nagrywany, do którego jednocześnie jest obok jakiś materiał tekstowy, który informuje o tym, co tam jest migane. I takich materiałów tak naprawdę brakuje, bo w tym z BBC było jednocześnie osoba migająca i napisy.
Więc one razem do kupy wzięte pozwalały na to, żeby sztuczną inteligencję nauczyć. Jak będziemy mieli w Polsce takie zasoby, to nauczyć sztuczną inteligencję, żeby migała, to nie będzie już taki wielki problem. Natomiast w drugą stronę. ..
Magda Brumirska-Zielińska
No właśnie.
Jacek Zadrożny
W drugą stronę może być rzeczywiście trudniej. Choć, z moim zdaniem innych przyczyn trochę.
Bo na tym korpusie nauczona sztuczna inteligencja na pewno sobie poradzi. Tylko, że to są nagrania, że tak powiem, bardzo porządnego migowego. Na co dzień osoby Głuche nie migają aż tak porządnie.
Magda Brumirska-Zielińska
I każda osoba Głucha miga w zupełnie inny sposób.
Jacek Zadrożny
No może nie zupełnie, troszkę przesadzasz, ale rzeczywiście w inny.
Magda Brumirska-Zielińska
Ale to jest bardziej zróżnicowane, niż taki prywatny język każdego mówiącego fonicznie człowieka.
Jacek Zadrożny
Ale to ja ci porównam to do syntezy mowy? Synteza mowy była od bardzo dawna.
Magda Brumirska-Zielińska
Tak.
Jacek Zadrożny
A rozpoznawanie mowy, takie sprawne, jest od stosunkowo niedawna, może od dziesięciu lat. Natomiast syntezatory są spokojnie od pięćdziesięciu lat. To jest moim zdaniem dokładnie to samo to nie znaczy, że sztuczna inteligencja się tego nie nauczy.
Magda Brumirska-Zielińska
Kiedyś nauczy. Oczywiście.
Jacek Zadrożny
Natomiast generowanie języka migowego to, ja myślę, że jest w zasięgu ręki.
Magda Brumirska-Zielińska
Prawdopodobnie będzie to na takim poziomie jak tłumacz Google te pięć, sześć, siedem lat temu, czyli wtedy, kiedy my się trochę podśmiewaliśmy z jakości jego tłumaczeń, bo można było natychmiast zorientować się, że to jest tłumaczenie z Google. Ale teraz one są, znowu: zaskakująco akuratne, zaskakująco prawidłowe.
Jacek Zadrożny
No ja ci powiem, że to jest kolejna chluba polskich programistów i speców od sztucznej inteligencji, ale najlepsze oprogramowanie do tłumaczenia jest właśnie w polskiej firmie. Nazywa się Deepl. To jest znacznie lepsze niż tłumacz Google czy tłumacz Microsoftu. No i to oczywiście jest tak, że jak się rozłoży język do takich podstawowych elementów to język migowy jest po prostu jednym z języków. To nie jest tak, że on jest jakoś szczególnie inny. Poza tym oczywiście, że tak powiem, końcówka syntetyzująca jest inna, bo nie jest to dźwięk, tylko obraz.
Magda Brumirska-Zielińska
Tak, tak. Ja zastanawiam się właśnie nad możliwością transkrypcji tekstu zamiganego czy swobodnej wypowiedzi w języku migowym i transkrybowania tego na tekst foniczny, spisany literowo. Dlatego, że to są jednak bardzo różne systemy. System wizualny i system dźwiękowy mają barierę, której niektóre treści po prostu nie są w stanie przekroczyć.
Jacek Zadrożny
Wiesz co, chyba się z tobą nie zgodzę.
Magda Brumirska-Zielińska
Pozwól, że wytłumaczę, co mam na myśli. Bo w migowym na przykład jest tak, że jeżeli chcemy powiedzieć, że położyłam książkę na wysokiej półce, to migam „książka” i wizualnie układam ją w wysokim miejscu, ewentualnie dodając słowo „półka”. To nie zawsze są słowa ułożone gramatycznie, po kolei. Tam też bardzo dużo mówi to, w którym miejscu coś ustawiamy.
Jacek Zadrożny
Dlatego w definicji jest, że to jest wizualno-przestrzenny język.
Magda Brumirska-Zielińska
Tak jest.
Jacek Zadrożny
A więc ja o tym oczywiście wiem. Natomiast jeżeli on rozpozna gesty: „książka”, „półka” i gest kładzenia czegoś, to on na wyjściu dostarczy te 3 słowa. Na razie hipotetycznie mówię, oczywiście.
No, to przerobienie tego na zrozumiały język polski, moim zdaniem jest akurat dość banalne. Problem jest moim zdaniem zupełnie gdzie indziej, to znaczy w samym rozpoznawaniu tych gestów.
Ale jeżeli się ten kawałek przekroczy, to dale już będzie z górki.
Magda Brumirska-Zielińska
Tak. Parę miesięcy czy może z półtora roku temu przez polskie media przewinęła się taka informacja, że studenci… nie przypomnę sobie w tej chwili jakiej uczelni i z jaką afiliacją. W każdym razie, studenci stworzyli rękawice, dzięki którym osoba migająca mogłaby literować.
Jacek Zadrożny
[Śmiech].
Magda Brumirska-Zielińska
Co z jednej strony jest bardzo fajnym ćwiczeniem, bardzo fajnym sposobem na to, żeby zacząć pracę nad jakimś rodzajem przepisywania tekstu zamiganego na tekst pisemny. Wyjściem do tego, żeby później na przykład przy pomocy takich rękawic można było spisywać treść znaków migowych. Natomiast ubranie tych rękawic, nauczenie osoby Głuchej, jak tego używać, i proszenie jej, żeby zamigała literowo całe zdanie potrwa… wydaje mi się że kwadrans. Natomiast poproszenie jej o to, żeby ona zapisała to zdanie przy pomocy kartki i długopisu, potrwa tyle, ile podanie kartki i długopisu.
Jacek Zadrożny
No doskonale, że ludzie próbują takie rzeczy zrobić. Ale rzeczywiście, trochę jednak nie zrobili dobrej kwerendy. Bo gdyby ją zrobili, to by wiedzieli, że większość osób Głuchych nie zna języka polskiego albo zna go słabo.
Magda Brumirska-Zielińska
Dokładnie.
Jacek Zadrożny
Więc żadna rękawica w niczym nikt nie pomoże, bo po prostu nie przeliterują tego tekstu. A ci, którzy znają język polski, to rzeczywiście napiszą na kartce i żadna rękawica nie jest im do tego potrzebna.
Magda Brumirska-Zielińska
Dokładnie.
Jacek Zadrożny
Ale dobrze, że ludzie eksperymentują. To jest fajne.
Magda Brumirska-Zielińska
Tak, tak. Jeszcze uzupełniając, tę podstawową znajomość języka polskiego to prawie wszyscy mają. Więc napisanie bardzo prostego zdania, nie wiem w kasie w sklepie, że poproszę o paczkę gumy do żucia, to jest prawie każdy w stanie napisać.
Jacek Zadrożny
Powiem ci, że jak czytałem czasem fora Głuchych na Facebooku. To nie wyglądało tak, jakby oni się posługiwali językiem polskim, używali polskich słów, i tylko tyle.
Magda Brumirska-Zielińska
Tak, ale myśleli w języku migowym. To na tym polega. Tak, to są osoby, które myślą w swoim języku wizualno-przestrzennym i podłożenie pod niego polskich słów dla osoby myślącej fonicznie nie zawsze będzie zrozumiałe i nie zawsze będzie wyglądało naturalnie. Tak.
Jacek Zadrożny
Ja zakładam, że jak ten ktoś przyjdzie do sklepu i będzie chciał 3 bułki, to prędzej napisze „3 × bułka”.
Magda Brumirska-Zielińska
Albo wskaże na bułkę i pokaże „trzy” na palcach. Oczywiście, w takich prostych sytuacjach każdy się jest w stanie dogadać.
Jacek Zadrożny
I nie trzeba rękawicy.
Magda Brumirska-Zielińska
Tak, tak dokładnie.
Jacek Zadrożny
Podeślę ci link do tego filmu z tym Attenborough, żebyś zobaczyła efekt.
Magda Brumirska-Zielińska
A ja te wszystkie linki nam w opisie naszego dzisiejszego odcinka.
Jacku, ty jeszcze dzisiaj, na samym początku zagaiłeś taki temat jak dostępność architektoniczna wspomagana przez sztuczne inteligencje. I mnie to bardzo zaciekawiło, bo przyznam ci się, że wcześniej nawet przez głowę mi nie przeszło, że coś tu może być na rzeczy. Mógłbyś chociaż w kilku zdaniach powiedzieć, co się w tym temacie na razie dzieje?
Jacek Zadrożny
No pewnie, i powiem ci, że nawet wiem, że już są robione próby. I tu jest kilka wątków.
Pierwszy wątek taki, który przynajmniej dla mnie był oczywisty od dawna, tylko po prostu tego jeszcze nie umiem zrobić. To jest analiza zdjęć. Analiza zdjęć pod takim kątem na przykład, żeby umiała rozpoznać, to są schody czy mają poręcze, jakie są wysokości, stopnie, czy są oznaczone kontrastowo itd. I to już modele sztucznej inteligencji oczywiście potrafią robić. Problem troszeczkę jest jeszcze z tym, żeby prawidłowo obliczały wymiary, ale to jest problem natury bardziej technicznej. Na to są sposoby, też jakieś tam na rozwiązanie tego problemu.
Ale, w każdym razie, zobacz. Zdjęcie schodów połączone z taką bazą, jak u mojej Ally. Może powiedzieć na przykład: tutaj jest pięć schodów, każdy ma wysokość osiemnastu centymetrów, to jest dziewięćdziesiąt centymetrów różnicy, potrzebna jest pochylnia o długości… Jedenastu metrów.
Magda Brumirska-Zielińska
O, kurczę.
Jacek Zadrożny
I to jest jak najbardziej do zrobienia. Poza tym, może powiedzieć, że szerokość tych schodów wynosi sześć metrów. Bardzo szerokie, ale to tylko przykład. W związku z tym potrzebna jest jeszcze jedna poręcz pośrodku, bo jej tam nie ma. Wyobrażasz sobie takie coś?
Magda Brumirska-Zielińska
Świetne.
Jacek Zadrożny
A drugie, bo jak mówię, tych pomysłów, to ja mam w głowie mnóstwo. Tylko ktoś musi to zrobić.
Masz plan budynku. I masz model, który potrafi taki plan budynku przeanalizować i wskazać miejsca problematyczne. Czyli na przykład, o tutaj widzę, że są szklane drzwi, więc trzeba sprawdzić, czy one są prawidłowo oznaczone.
Magda Brumirska-Zielińska
Słuchaj, a jakby w ogóle ten model analizował film z przejścia przez ten budynek?
Jacek Zadrożny
Tak, to jest tylko kolejny etap. Wiesz, to trzeba sprawdzić, jak to działa na zdjęciach, a potem przejście na wideo nie jest już takim wielkim wyzwaniem. To jest tylko kwestia mocy obliczeniowej.
No, ale tak jak mówię z tego więcej, który mam w głowie. Jeden pomysł, on nie jest tak naprawdę mój, ale uważam za genialny. Szkoda, że nie kontynuowany.
Mianowicie podczas jednego z hackathonów, które organizowało Ministerstwo Funduszy, grupka programistów zrobiła aplikację dla osób poruszających się na wózkach. Taką, w której można, byłoby oznaczać miejsca niedostępne. Tyle że – takich aplikacji oczywiście powstawało więcej. Nawet na tym Hackathonie powstały ze trzy. Ale oni podeszli tylko zupełnie inaczej. Mianowicie to była aplikacja, która zbierała te informacje w sposób automatyczny. Wykorzystywała te wszystkie czujniki, które są w telefonie, wygodne do użycia, czyli na przykład akcelerometry. Jak się nazywa to, co w samolotach wyznacza poziom? Uciekł mi słowo.
Magda Brumirska-Zielińska
Nooo, te, co wyznaczają poziom.
Jacek Zadrożny
Tak [śmiech]. Kompas, i tak dalej. I zapisywały. I to po prostu chodzi sobie w tle, tak jak mapy Google.
Magda Brumirska-Zielińska
Czyli tak, automatyczne sprawdzanie, czy jest korek albo czy jest tłum w sklepie.
Jacek Zadrożny
Tak, a tutaj na przykład było tak, że ktoś jeżdżący na wózku tutaj zjechał i był silny wstrząs. Czyli coś jest nie tak, nie ma tu wygodnego zjazdu.
Albo gdzieś się wturlał po pochylni. I widać było z tych z tych wskaźników, że ta pochylnia jest za stroma. Albo że nie ma odpowiedniego spocznika po drodze. Albo jeszcze inne rzeczy. Gdzieś się osoba na wózku zatrzymuje przed jakimi drzwiami i spędza tam nadmiernie dużo czasu. No to już jest jakaś taka taka lampka do zapalenia, że może coś z tymi drzwiami jest nie tak. Zoże ciężko się otwiera, może są za wąskie, może coś, może coś. W każdym razie daje już taki sygnał.
No więc to są takie rzeczy, które sztuczna inteligencja może zrobić.
O, jeszcze jedno! Miałem pomysł, niezrealizowany, z kolei innym jeszcze Hackathonie. Mianowicie: nikt nie wie, gdzie są miejsca parkingowe dla osób niepełnosprawnych.
Magda Brumirska-Zielińska
To prawda.
Jacek Zadrożny
Ale dysponujemy zdjęciami satelitarnymi.
Magda Brumirska-Zielińska
Niby tak.
Jacek Zadrożny
Więc z takiej analizy zdjęć satelitarnych można by było spokojnie zrobić mapę miejsc parkingowych.
Magda Brumirska-Zielińska
Zakładając, że będą pomalowane na ten zgodny z wytycznymi odcień koloru niebieskiego i będą mieć namalowaną kopertę.
Jacek Zadrożny
Oczywiście, że zakładając. To nie jest tak, że sztuczna inteligencja jest wszech wiedząca i wszechmocna.
Magda Brumirska-Zielińska
Bo czasami ludzka głupota może ją pokonać.
Jacek Zadrożny
Tak, spokojnie [śmiech]. Natomiast jeżeli spełnione są te podstawowe warunki, to zmapowanie takich miejsc parkingowych też powinno być dość proste.
No więc mówię, jest dużo naprawdę takich rzeczy, które ta inteligencja mogłaby zrobić, jeżeli tylko dać ludzi, którzy by do tego usiedli.
Magda Brumirska-Zielińska
Moi drodzy, jeżeli słuchają nas ludzie dysponujący bardzo dużymi funduszami i chcący stworzyć startupa, to ja wam bardzo polecam Jacka Zadrożnego.
Jacku, gdzie w internecie można cię znaleźć?
Jacek Zadrożny
Jestem na LindekIn, jak się przełamie przez jaczad, bo to jest taki mój nick, rozpoznawalny prawie wszędzie. To jest mój profil. Zachęcam do to mojego newsletttera.
Magda Brumirska-Zielińska
Bardzo dobrego.
Jacek Zadrożny
Dziękuję ci bardzo. To jest dostępnik.substack.com. No i gdzie jeszcze? No jeszcze na stronie AutomaticA11y. Ona nie jest jakoś bardzo aktualizowana, ale to jest po prostu stronka wydarzenia. Właśnie powoli zapraszam ludzi do tego, żeby zgłaszali swoje prezentacje, opisy produktów, usług, stoliki tematyczne. Co tam sobie kto wymyśli, że chciałby robić podczas AutomaticA11y.
Nie wiem, co jeszcze. Facebook jest dla mnie środowiskiem absolutnie już nieznośnym, chętnie bym całkiem z niego uciekł, ale póki co jeszcze nie bardzo mogę.
Z Twittera się wycofałem. Gdzie jeszcze mogę… A, jeżeli ktoś się zajmuje sztuczną inteligencją, to jestem na Hugging Face, oczywiście też. i też mam tam właśnie, jak się przełamie przez „jaczad”, to jest tam mój profil.
Nie wiem, gdzie jeszcze. Jestem na Githubie, ale tam nic specjalnie ciekawego nie ma.
Magda Brumirska-Zielińska
Myślę, że dobrym początkiem jest wpisanie w waszą ulubioną wyszukiwarkę hasła „Dostępnik”. To jest chyba jedyne pod tym hasłem miejsce w polskim internecie. I z Dostępnika już przejdziecie wszędzie, gdzie trzeba.
Jacek Zadrożny
Tak.
O, ale jeżeli mogę zareklamować jeszcze, to odpaliłem, na prośbę czytelniczki Dostępnika zresztą, kanał na Slacku. Jeżeli ktoś chce, też sobie może poszukać „Dostępnik” i tam już jest sporo ludzi, głównie zajmujących się dostępnością cyfrową na razie. Ale mam nadzieję, że pojawią się też ludzie z innych działek. Tam sobie rozmawiamy. Informujemy o wydarzeniach, tego typu rzeczy robimy.
Magda Brumirska-Zielińska
Więc czekamy na maj i na następne AutomaticA11y. Czekamy na kolejne teksty z Dostępnika. Czekamy na te momenty, kiedy ktoś w internecie powie nam, że możemy Jacka usłyszeć na żywo lub online, bo to jest zawsze fajna, wartościowa treść związana z dostępnością. Jacku, ogromnie dziękuję ci za dzisiejszą rozmowę.
Jacek Zadrożny
Ja również bardzo ci dziękuję i przepraszam, że się rozgadałem, ale powycinaj jest sobie co tam będziesz potrzebowała.
Magda Brumirska-Zielińska
Dobrze dzięki wielkie. Moi drodzy, to był Podcast o Dostępności. Ja nazywam się Magda Brumirska-Zielińska. Już wkrótce kolejne odcinki. Do usłyszenia.
Justyna Mańkowska-Kaczmarek
Jeśli chcesz dowiedzieć się więcej na temat dostępności, zacząć działać albo sprawdzić inne tematy, które poruszamy w podcaście, znajdziesz nas na Spotify lub w innym miejscu, w którym słuchasz podcastów, na YouTubie, czy stronie www.kulturadlawszystkich.pl. Nasze podcasty mają transkrypcję, gdybyś chciał polecić je osobie słabosłyszącej. Link znajdziesz w opisie podcastu. Polecamy ci także strony www.fundacjakatarynka-test.websitespace.eu. i wwa.adapter.pl, czyli pierwszy portal filmowy z audiodeskrypcją, napisami i tłumaczeniem na Polski Język Migowy.
Zadanie publiczne jest współfinansowane ze środków Państwowego Funduszu Rehabilitacji Osób Niepełnosprawnych otrzymanych od urzędu Marszałkowskiego województwa dolnośląskiego z siedzibą we Wrocław.