Projektowanie funkcji: sześć kroków do stworzenia udanego modelu uczenia maszynowego

Projektowanie funkcji: sześć kroków do stworzenia udanego modelu uczenia maszynowego
Badania w dziedzinie uczenia maszynowego prowadzą do stworzenia nowych algorytmów i technik. Nawet taka metoda, jak inżynieria obiektów, która istnieje od kilkudziesięciu lat, jest stale aktualizowana. Zespoły programistyczne muszą stale uczyć się i pompować swoje umiejętności, tworząc nowe podejścia do uczenia maszynowego. Hytek przetłumaczył i uzupełnił artykuł o VentureBeat, aby porozmawiać o nowoczesnych technikach inżynierii elementów i doradzić twórcom oprogramowania w tworzeniu modeli o wartości dodanej

Metoda inżynierii cech jest tak stara jak nauka o danych. Ale z jakiegoś powodu staje się coraz bardziej zapomniany. Wysokie zapotrzebowanie na szkolenia maszynowe spowodowało agiotage wśród naukowców-badaczy. Dziś mają ogromne doświadczenie w tworzeniu narzędzi i algorytmów. Ale brakuje im wiedzy branżowej wymaganej do projektowania funkcji. Badacze próbują to zrekompensować narzędziami i algorytmami. Jednak algorytmy są teraz tylko towarem i same w sobie nie generują korporacyjnego portfela IP (portfela praw własności intelektualnej należących do firmy – "HiTek").


Projektowanie funkcji – technika rozwiązywania problemów związanych z maszyną szkolenie, pozwalające podnieść jakość opracowywanych algorytmów. Zapewnia transformację danych charakterystycznych dla domeny podmiotu do wektorów przyjaznych modelowi. Aby skutecznie rozwiązać problem z inżynierią obiektów, musisz być ekspertem w danej dziedzinie i zrozumieć, co wpływa na konkretną zmienną docelową. Dlatego wielu programistów nazywa inżynierię obiektową sztuką, która wymaga dużej liczby zadań i doświadczenia.

Dzisiaj, startupy takie jak ContextRelevant i SparkBeyond opracowują nowe narzędzia, które upraszczają proces tworzenia i wybierania funkcji (wybór funkcji).


Uogólnione dane stają się również towarem, a oparte na chmurze usługi uczenia maszynowego (MLaaS), takie jak Amazon ML i Google AutoML, teraz pozwalają nawet mniej doświadczonym członkom zespołu na uruchamianie modeli danych i uzyskiwanie ich prognoz w ciągu kilku minut. W rezultacie firmy, które rozwijają kompetencje organizacyjne w zakresie gromadzenia lub wytwarzania własnych danych stworzonych przy użyciu inżynierii obiektowej, nabierają rozpędu. Po prostu zbieranie danych i budowanie modeli to za mało.

Czytaj także  W Wenezueli rozpoczął kurs umiejętności krypto-walutowych

Korporacje uczą się wiele od zwycięzców konkursów modelowania, takich jak KDD Cup i nagroda Health Provider Network Provider. Ich sukcesy wynikają z kompetentnego podejścia do metody projektowania elementów

Metody inżynierii cech

W dziedzinie inżynierii cech technicznych naukowcy opracowali szereg metod.

] Kontekstowa transformacja. Obejmuje przekształcenie poszczególnych funkcji z zestawu źródłowego w bardziej kontekstowo istotne informacje dla każdego konkretnego modelu.

Na przykład przy korzystaniu z funkcji jakościowej, specjalne informacje w kontekście sytuacji mogą być używane jako funkcja "nieznana". Ale wewnątrz modelu wygląda to tylko kolejna wartość kategorii. W tym przypadku możesz wprowadzić nową funkcję binarną has_value, aby oddzielić "nieznany" od wszystkich innych opcji. Na przykład funkcja kolorów wprowadzi has_color dla nieznanego koloru.

Polecenia uczenia maszynowego często wykorzystują binning do podziału poszczególnych funkcji na kilka dla lepszego zrozumienia. Na przykład, dzieląc funkcję "wiek" na "młody" przez 60 lat 40 lat,>


Rozdzielanie lub równoważenie danych to metoda wstępnego przetwarzania stosowana w celu zmniejszenia wpływu drobnych błędów w obserwacji. Początkowe wartości danych mieszczących się w małym przedziale są zastępowane wartością reprezentującą ten interwał, często wartością centralną. Jest to forma kwantyzacji.


Niektóre inne przykłady przekształceń:

  • skalowanie wartości między zmienną min-max (np. Wiek) w zakresie [0, 1];
  • dzielenie liczby wizyt w każdym typie restauracji jako wskaźnik "zainteresowania" w kuchniach świata

Wielofunkcyjna arytmetyka . Innym podejściem do inżynierii obiektów jest wykorzystanie formuł arytmetycznych do zestawu istniejących punktów danych. Takie formuły tworzą pochodne w oparciu o interakcje między funkcjami i ich wzajemne relacje.

Czytaj także  Amerykańska firma wypuściła obuwie z plastikowych butelek z recyklingu

Konstruowanie za pomocą wielofunkcyjnej arytmetyki jest bardzo korzystne, ale wymaga pełnego zrozumienia przedmiotu i celów modelu.

Przykłady użycia formuł:

  • "Teren" z połączenia cech charakterystycznych "oceny szkoły" i "stopy przestępczości";
  • definicji "szczęścia w kasynie" poprzez porównanie rzeczywistych wydatków odwiedzających z przewidywanymi kosztami;
  • obliczanie " przez podzielenie salda "karty kredytowej" na "limit";
  • uzyskanie oszacowania RFM (członkostwo, częstotliwość, przepływ finansowy) w celu segmentacji klientów z połączenia "ostatniej transakcji", "częstotliwości transakcji" i "kwoty wydanej" w przez jakiś czas.

Zaawansowane metody. Polecenia wybierają bardziej wyrafinowane metody algorytmiczne, które analizują istniejące dane w celu wyszukania możliwości tworzenia nowych funkcji.

  • Analiza głównych składników (PCA) i niezależna analiza komponentów (ICA) porównuje istniejące dane z inną przestrzenią obiektów
  • Głęboka synteza cech (DFS) umożliwia transfer pośrednich efektów uczenia się ze środkowych warstw sieci neuronowych.

Podstawy udanego rozwoju

Podstawy udanego rozwoju

Zespoły powinny ciągle szukać więcej ef skuteczne funkcje i modele. Ale aby osiągnąć sukces, praca musi być systematycznie uporządkowana. Sześć kroków do rozwoju za pomocą inżynierii elementów, które przydadzą się zespołom zajmującym się uczeniem maszynowym i ich liderom:

1. Określ cel modelu. Rozpocznij od wyjaśnienia sobie i zespołowi głównych celów i zastosowań modelu. Każdy powinien wchodzić w interakcje i pracować w wyjątkowym celu. W przeciwnym razie będziesz pracował za darmo.

2. Ustaw niezbędne kryteria. Proces budowy modelu o wysokiej wydajności wymaga dokładnych badań i analizy dostępnych danych. Jednak plan pracy musi uwzględniać ograniczenia w rzeczywistym świecie: koszt, dostępność, ograniczenia w obliczeniach i przechowywaniu oraz inne wymagania podczas początkowego rozwoju. Zespół musi uzgodnić takie preferencje lub ograniczenia na wczesnym etapie.

3. Idealne nowe funkcje. Zastanów się, jak stworzyć nowe dane, by lepiej opisać i rozwiązać dany problem. Wiedza w tej dziedzinie i zaangażowanie ekspertów na tym etapie zapewni wzrost wartości inżynierii elementów.

4. Buduj funkcje jako dane wejściowe. Po zdefiniowaniu nowych koncepcji funkcji wybierz najskuteczniejsze metody ich tworzenia z dostępnych danych. Wybór właściwej techniki jest kluczem do zapewnienia użyteczności nowych funkcji.

5. Dowiedz się wpływ. Oceń, jak cechy modelu wpływają na jego wydajność. Wnioski dotyczące wartości dodanej nowych funkcji zależą bezpośrednio od sposobu mierzenia wydajności.

Pomiar wydajności modelu powinien być z powodzeniem stosowany w biznesie. Dziś zespoły mają szeroki zestaw parametrów pomiarowych, które wykraczają daleko poza dokładność: przywoływanie, wynik F1 i charakterystyka wydajnościowa odbiornika (ROC).

6. Określ funkcje. Rozwój funkcji jest procesem iteracyjnym, obejmującym testowanie, strojenie i udoskonalanie nowych funkcji. Cykl optymalizacji w tym procesie czasami prowadzi do usunięcia funkcji o niskiej wydajności lub zastąpienia przy użyciu wszystkich możliwych podobnych opcji, dopóki nie zostaną zidentyfikowane najlepsze funkcje wpływu.

Nowa alchemia

Funkcja inżynierii – nowa alchemia współczesnego świata, w której zespoły odnoszące sukcesy przekształcają wspólne dane w własność intelektualną o wartości dodanej dla swoich organizacji.


Ważne zasady sukcesu w dziedzinie projektowania elementów:

  • ekspertyza zapewniająca jasne zrozumienie biznesu ez-cele i odpowiadające mi miary skuteczności modelu;
  • działają poprzez powtarzalny i systematyczny proces;
  • rozważenie różnych możliwych opcji fikcjalizacji;
  • zrozumienie i kontrola sposobu, w jaki wybór funkcji wpływa na wydajność modelu.


Konwersja danych na własnościowe. funkcje – to podstawa do pojawienia się znaczących modeli. Może to być bardzo cenne wsparcie i zapewnić przewagę konkurencyjną dla organizacji.

Powiązane wiadomości