Jak automatyzacja zmienia nauk臋 o danych i uczenie maszynowe

Jak automatyzacja zmienia nauk臋 o danych i uczenie maszynowe

Prawie ka偶dy artyku艂 o tym, jak automatyzacja wp艂ynie na nasz膮 przysz艂o艣膰, mo偶na zaklasyfikowa膰 do jednej z dw贸ch narracji. Po pierwsze, z pewno艣ci膮 doprowadzi to do lepszej przysz艂o艣ci, tak jak zawsze od czasu rewolucji przemys艂owej. Oczywi艣cie niekt贸rzy strac膮 prac臋, ale jak pokazuje historia, powstan膮 nowe miejsca pracy. I to nie tylko nowe miejsca pracy, ale lepsze miejsca pracy. Inna narracja jest taka, 偶e 鈥嬧媡ym razem jest inaczej. Roboty staj膮 si臋 coraz bardziej inteligentne i zdolne. A liczba miejsc pracy i bran偶, kt贸re zniszcz膮, znacznie przewy偶szy liczb臋 miejsc pracy, kt贸re stworz膮. Oczywi艣cie nie mo偶na powiedzie膰, kt贸ra z dw贸ch narracji stanie si臋 rzeczywisto艣ci膮. Mo偶emy powiedzie膰, 偶e te narracje maj膮 podobny pocz膮tek: coraz wi臋cej cz臋艣ci naszej pracy i 偶ycia jest zautomatyzowanych.

We藕my na przyk艂ad proces prowadzenia pojazdu. Od wielu lat zajmujemy si臋 drobnymi cz臋艣ciami procesu jazdy i automatyzujemy je. Aby zapewni膰 lepsze wra偶enia z jazdy, stworzyli艣my tempomat. Do planowania tras opracowali艣my GPS. Teraz jeste艣my w stanie rozwi膮zywa膰 bardziej z艂o偶one problemy, takie jak 艂膮czenie si臋 z pasem ruchu i hamowanie awaryjne. W ci膮gu najbli偶szych kilku lat z pewno艣ci膮 b臋dziemy mieli po drogach w pe艂ni autonomiczne samochody. W zesz艂ym tygodniu Waymo, samodzielna sp贸艂ka zale偶na Alphabet, oficjalnie otrzyma艂a pierwsze w Kalifornii zezwolenie na testowanie swoich pojazd贸w w stanie bez cz艂owieka za kierownic膮.

Wszystkie te zmiany ilustruj膮 wa偶n膮 lekcj臋: automatyzacja odbywa si臋 etapami. Proces ten mo偶na zaobserwowa膰 w wielu zawodach. Jedyn膮 g艂贸wn膮 zmienn膮 s膮 ramy czasowe, w kt贸rych to si臋 dzieje. Je艣li jeste艣 lekarzem, zajmie to troch臋 czasu, zanim g艂贸wne cz臋艣ci Twojej pracy zostan膮 zautomatyzowane. Je艣li jeste艣 ksi臋gowym na poziomie podstawowym, ramy czasowe s膮 znacznie mniejsze. Podobnie jak w przypadku jazdy, stopniowa automatyzacja ma miejsce r贸wnie偶 w nauce o danych. Chocia偶 jest to z艂o偶ony temat, skupi臋 si臋 na dw贸ch wa偶nych wydarzeniach, kt贸re zmieniaj膮 krajobraz nauki o danych:

Platformy analizy danych Zautomatyzowane uczenie maszynowe

Zanim zaczn臋 m贸wi膰 o platformach nauki danych, pozw贸lcie, 偶e przedstawi臋 Wam kr贸tkie wprowadzenie do tego, czym jest nauka o danych. W istocie jest to dziedzina, kt贸ra wykorzystuje narz臋dzia zaczerpni臋te z informatyki, statystyki i uczenia maszynowego, aby wyodr臋bni膰 wnioski z danych. Innymi s艂owy, je艣li masz jakie艣 dane i chcesz na ich podstawie podj膮膰 jak膮艣 decyzj臋 lub prognozy, korzystasz z nauki o danych. Jednak wyodr臋bnianie informacji z du偶ych zbior贸w danych mo偶e by膰 kosztowne. Aby wdro偶y膰 dowolny projekt big data, firma musi najpierw zbudowa膰 infrastruktur臋 danych. Pomy艣l o tym jako o r贸偶nych elementach technologii, kt贸re mog膮 obs艂ugiwa膰 wszystkie narz臋dzia potrzebne naukowcom zajmuj膮cym si臋 danymi. Problem w tym, 偶e przez wiele lat budowanie takiej infrastruktury by艂o jak budowanie samochodu tylko z cz臋艣ci. Mo偶liwe, ale potrzebowa艂e艣 ludzi z wysoce wyspecjalizowanymi umiej臋tno艣ciami, a to wymaga艂o du偶o pieni臋dzy i czasu. Na szcz臋艣cie to si臋 zmienia. To, co widzieli艣my w ci膮gu ostatnich kilku lat, to pojawienie si臋 platform, kt贸re automatyzuj膮 ten proces. We藕my na przyk艂ad r贸偶ne platformy oparte na chmurze, kt贸re znacznie u艂atwiaj膮 tworzenie i utrzymywanie infrastruktur du偶ych zbior贸w danych, od mojego w艂asnego zespo艂u po inne na rynku, takie jak Amazon Web Services (AWS), Google, Microsoft i Anaconda.

Zautomatyzowane platformy Big Data to tylko cz臋艣膰 historii. Chocia偶 umo偶liwiaj膮 nam 艂atwiejsze konfigurowanie i utrzymywanie infrastruktury danych, kto艣 nadal musi pisa膰 wiersze kodu, aby wyczy艣ci膰 dane i eksperymentowa膰 z modelami uczenia maszynowego. Ten proces mo偶e by膰 do艣膰 czasoch艂onny i niepotrzebnie skomplikowany. Aby zrozumie膰, o co mi chodzi, pozw贸l, 偶e przeprowadz臋 Ci臋 przez przep艂yw pracy w analizie danych.

Zwykle ka偶dy projekt nauki o danych sk艂ada si臋 z trzech cz臋艣ci: przetwarzania danych, modelowania i wdra偶ania. Je艣li chodzi o spos贸b sp臋dzania czasu w ka偶dej z tych cz臋艣ci, kierujemy si臋 nast臋puj膮c膮 zasad膮: 50-60 procent przeznacza si臋 na samo przetwarzanie danych, a reszt臋 na modelowanie i wdra偶anie. Jak mo偶esz sobie wyobrazi膰, jest to bardzo nieefektywne wykorzystanie czasu naukowca danych. Jest to jednak konieczne, poniewa偶 dane w 艣wiecie rzeczywistym s膮 nieuporz膮dkowane, a algorytmy nie radz膮 sobie z niechlujnymi i nieustrukturyzowanymi zestawami danych. Z drugiej strony modelowanie jest procesem iteracyjnym. W przypadku konkretnego problemu nie mo偶na z g贸ry wiedzie膰, kt贸ry dok艂adny algorytm b臋dzie najlepszy. W rezultacie analityk danych musi wypr贸bowa膰 wiele r贸偶nych algorytm贸w, a偶 dojdzie do dobrze dzia艂aj膮cego.

Innym 藕r贸d艂em nieefektywno艣ci jest to, 偶e mo偶e by膰 trudno wzi膮膰 model i spakowa膰 go w spos贸b, kt贸ry mo偶na wprowadzi膰 do produkcji. Wiele razy potok uczenia maszynowego, kt贸ry zosta艂 zbudowany podczas cz臋艣ci do modelowania, musi zosta膰 rozebrany i zrekonstruowany, aby zapewni膰 bezpiecze艅stwo produkcji. Aby zaradzi膰 wszystkim tym problemom, w ci膮gu ostatnich kilku lat dostawcy rozwi膮za艅 analitycznych zacz臋li opracowywa膰 produkty, kt贸re zajmuj膮 ca艂y ten przep艂yw pracy i integruj膮 si臋 w jedn膮 kompleksow膮 platform臋. Pomy艣l o tych platformach jak o systemach operacyjnych do nauki o danych. Wielk膮 innowacj膮, jak膮 wnosz膮 te platformy, jest to, 偶e po pierwsze automatyzuj膮 wiele cz臋艣ci przetwarzania danych. Po drugie, bardzo u艂atwiaj膮 艣ledzenie wszystkich opracowanych modeli i ich parametr贸w. U艂atwiaj膮 te偶 wprowadzanie algorytm贸w i modeli do produkcji.

Aby da膰 ci kilka przyk艂ad贸w, Alteryx ma inteligentn膮 i 艂atw膮 w u偶yciu platform臋 do nauki o danych. To firma, kt贸ra mia艂a debiut gie艂dowy nieco ponad rok temu i ju偶 podwoi艂a cen臋 swoich akcji. Inni gracze w tym sektorze to KNIME, RapidMiner i H20.ai. Podobnie jak samochody maj膮 ca艂膮 t臋 technologi臋, kt贸ra zwi臋ksza wydajno艣膰 kierowc贸w, platformy te obiecuj膮 pom贸c ludziom lepiej porusza膰 si臋 po przep艂ywach pracy nauki danych.

Jednak to nadal nie oznacza, 偶e 鈥嬧媘o偶esz pozby膰 si臋 naukowca danych. Nadal potrzebna jest osoba, kt贸ra potrafi budowa膰 i interpretowa膰 modele. Problem w tym, 偶e te umiej臋tno艣ci s膮 trudne do zdobycia. S膮 te偶 drogie w cenie. Jedn膮 z najwi臋kszych przeszk贸d, z jakimi borykaj膮 si臋 firmy, pr贸buj膮c tworzy膰 zaawansowane projekty analityczne, jest brak wykwalifikowanych analityk贸w danych. Tu pojawia si臋 m贸j nast臋pny temat: automatyczne uczenie maszynowe. Niekt贸re z tych firm analitycznych posz艂y o krok dalej i zacz臋艂y integrowa膰 zautomatyzowane systemy uczenia maszynowego na swoich platformach. Systemy, w kt贸rych przy minimalnej interwencji mo偶na wrzuci膰 dane i pobra膰 modele kolekcji. Najwi臋ksz膮 zalet膮 tych system贸w jest to, 偶e otwieraj膮 analizy predykcyjne dla znacznie szerszego grona odbiorc贸w. Mog膮 by膰 niesamowicie pot臋偶nymi narz臋dziami pomagaj膮cymi nietechnicznym pracownikom w rozwi膮zywaniu prostszych problem贸w zwi膮zanych z prognozowaniem, takich jak odp艂yw klient贸w. Chocia偶 jest coraz wi臋cej firm oferuj膮cych zautomatyzowane rozwi膮zania do uczenia maszynowego, takie jak DataRobot, chcia艂bym wspomnie膰 o kilku interesuj膮cych projektach Pythona typu open source, kt贸re ka偶dy mo偶e wypr贸bowa膰.

Pierwszym z tych narz臋dzi jest Featuretools, kt贸ra jest niesamowit膮 bibliotek膮 do automatycznego budowania funkcji. Je艣li nie znasz si臋 na in偶ynierii funkcji, jest to proces tworzenia zmiennych wej艣ciowych dla modelu uczenia maszynowego:

Podczas gdy Featuretools zajmuje si臋 tylko niewielk膮, ale wa偶n膮 cz臋艣ci膮 potoku budowy modelu, poni偶sze dwa projekty to rzeczywiste biblioteki zautomatyzowanego uczenia maszynowego, kt贸re mog膮 automatycznie testowa膰 i budowa膰 zaawansowane modele uczenia maszynowego. Jedn膮 z tych bibliotek jest TPOT, kt贸ra wykorzystuje programowanie genetyczne do automatycznego tworzenia wydajnych potok贸w uczenia maszynowego. Chocia偶 jest do艣膰 przyjazny dla u偶ytkownika, znalezienie rozwi膮za艅 mo偶e zaj膮膰 du偶o czasu. Druga biblioteka to auto-sklearn, kt贸re jest oparte na meta-learningu. Bardzo ciekawa koncepcja, kt贸ra wykorzystuje wiedz臋 zdobyt膮 na tysi膮cach wcze艣niejszych zbior贸w danych i modelach uczenia maszynowego, aby zdecydowa膰, kt贸re modele i parametry najlepiej sprawdz膮 si臋 dla danego zestawu danych. Chocia偶 projekty te s膮 wci膮偶 w powijakach, mog膮 da膰 doskona艂y wgl膮d w dzia艂anie zautomatyzowanych system贸w uczenia maszynowego i korzy艣ci, jakie mog膮 przynie艣膰 w procesie nauki o danych.

Przy tych wszystkich narz臋dziach nastawionych na automatyzacj臋 cz臋艣ci przep艂ywu pracy w nauce o danych, pojawia si臋 g艂贸wne pytanie: 鈥瀋zy praca naukowca danych mo偶e by膰 w pe艂ni zautomatyzowana?鈥 Najkr贸tsza odpowied藕 brzmi: nie. Zautomatyzowane uczenie maszynowe nie eliminuje trudnych cz臋艣ci pracy analityk贸w danych, takich jak s艂uchanie klient贸w, rozumienie problemu biznesowego i zastanawianie si臋, jak stworzy膰 rozwi膮zanie. Automatyzuje powtarzalne i czasoch艂onne cz臋艣ci pracy. Jednak narz臋dzia te mog膮 pom贸c w szerszym przyj臋ciu zestaw贸w narz臋dzi analitycznych przez og贸艂 spo艂ecze艅stwa. Widzieli艣my ju偶, 偶e dzieje si臋 to w przypadku nowego rodzaju 鈥瀊adaczy danych obywatelskich鈥, ludzi z nietechnicznych 艣rodowisk, pracuj膮cych nad projektami analitycznymi i realizuj膮cych je przy u偶yciu narz臋dzi do nauki o danych.

Kredyt zdj臋ciowy: Lightspring / Shutterstock

Andras Palfi jest naukowcem zajmuj膮cym si臋 danymi w Bigstep. 15 listopada poprowadzi seminarium internetowe na temat 鈥Systemy rekomenduj膮ce, od prostych po z艂o偶one. 鈥滱by dowiedzie膰 si臋 wi臋cej i zarejestrowa膰, kliknij tutaj.