Google testuje wykrywacz języka migowego, aby przełączyć „aktywny głośnik” w wideo …

Google testuje wykrywacz języka migowego, aby przełączyć „aktywny głośnik” w wideo ...

Ponieważ większość z nas zaszyła się w naszych domach i koordynuje prace nad rozmowami wideo z powodu pandemii COVID-19, być może dobrze znasz różnorodne oprogramowanie do wideokonferencji. Świetną cechą tych aplikacji do rozmów wideo jest automatyczne przełączanie między kanałami wideo osoby rozmawiającej w czasie rzeczywistym. To jednak nie działa w przypadku użytkowników języka migowego i mogą czuć się wykluczeni z rozmowy.

Badacze Google postanowili rozwiązać ten problem z ułatwieniami dostępu, tworząc plik silnik wykrywania języka migowego w czasie rzeczywistym. Potrafi wykryć, kiedy osoba biorąca udział w rozmowie wideo próbuje komunikować się za pomocą języka migowego i zwrócić na nią uwagę. Silnik będzie w stanie rozpoznać, kiedy osoba zacznie podpisywać i uczynić ją aktywnym mówcą.

Model ten został zaprezentowany przez badaczy Google podczas ECCV 2020. Artykuł badawczy zatytułowany Wykrywanie języka migowego w czasie rzeczywistym przy użyciu szacowania pozycji człowieka mówi o tym, jak stworzono silnik wykrywania typu „podłącz i używaj” dla aplikacji do wideokonferencji. Wydajność i opóźnienie sygnału wideo były kluczowymi aspektami, a nowy model bardzo dobrze sobie z nimi radzi. Mam na myśli, co dobrego przyniesie opóźniony i przerywany kanał wideo?

Oto krótkie spojrzenie na to, co silnik języka migowego widzi w czasie rzeczywistym:

Teraz, jeśli zastanawiasz się, jak działa ten silnik wykrywania języka migowego, Google wyjaśnił to szczegółowo. Najpierw wideo przechodzi przez PoseNet, który szacuje kluczowe punkty ciała, takie jak oczy, nos, ramiona i inne. Pomaga silnikowi stworzyć ludzką figurę, a następnie porównać jej ruchy z modelem wyćwiczonym w korpusie niemieckiego języka migowego.

W ten sposób badacze wykrywają, że osoba zaczęła lub przestała podpisywać. Ale w jaki sposób przypisuje się im rolę aktywnego głośnika, skoro w zasadzie nie ma dźwięku? To była jedna z największych przeszkód i Google pokonała ją, budując plik internetowa wersja demonstracyjna, która przesyła sygnał audio o wysokiej częstotliwości 20 kHz do aplikacji do wideokonferencji, z którą się łączysz. Spowoduje to, że aplikacja do wideokonferencji zacznie myśleć, że osoba używająca języka migowego mówi, a tym samym uczyni ją aktywnym mówcą.

Badaczom Google udało się już osiągnąć 80% dokładność w przewidywaniu, kiedy dana osoba zacznie podpisywać. Można go łatwo zoptymalizować, aby osiągnąć ponad 90% dokładności, co jest po prostu niesamowite. Ten silnik wykrywania znaków to na razie tylko demonstracja (i artykuł badawczy), ale niedługo zobaczymy jedną z popularnych aplikacji do wideokonferencji, czy to Meet, czy Zoom, zaadoptuj ją, aby ułatwić życie wyciszonym ludziom.