Data Scientist w Wirtualnej Polsce


Michał Maj

January 12, 2017

Zadania analityków w WP

  • Analiza SPAMu

  • Rekomendacja treści (artykułów)

  • Scoring reklamowy

Scoring jest to proces przypisywania potencjalnym klientom (scoring aplikacyjny) lub istniejącym klientom (scoring behawioralny) prawdopodobieństwa wykonania określonej akcji będącej wyznacznikiem skuteczności. Wykonanie zadanej akcji przez użytkownika nazywamy pozytywem, a jej brak – negatywem.

W naszym przypadku jest to określenie prawdopodobieństwa tego, że dany użytkownik kliknie w reklamę




Jak generowany jest score?

Czym są ciasteczka?

Ciasteczko (ang. Cookie) - mały fragment tekstu, który serwis internetowy wysyła do przeglądarki i który przeglądarka wysyła z powrotem przy następnych wejściach na witrynę.

Ciasteczka zawierają między innymi informację o unikalnym identyfikatorze użytkownika.

Informacje zawarte w ciasteczkach są
rozkodowywane i przesyłane do usługi scoringowej.

W kolejnym kroku obliczane są scory (prawdopod. klikniecia) dla wszystkich kreacji reklamowych.

Wyliczone scory porównywane są z odpowiednimi
progami dyskryminacji (ang. cutoff), jeżeli dany score jest większy od odpowiadającemu mu cutoffu to dana reklama może zostać wyświetlona użytkownikowi.

Ostatecznie wybierana jest jedna (“najbardziej optymalna”) reklama, która zostaje wyswietlona uzytkownikowi. Każda odsłona i kliknięcie zostaje zapisane w systemie, dane te posłużą poźniej do budowy modelu scoringowego.




Czym jest i jak działa usługa scoringowa?

Wszystko zaczyna się od zlecenia…

Na samym początku firma X zgłasza się do WP w celu wyemitowania kampanii reklamowej. Dana kampania składa się zwykle z kilku(nastu) kreacji. Kreacje w danej kampanii mogą różnić się pod względem:

  • reklamowanego produktu
  • targetu (wybranej wcześniej grupy uzytkowników)
  • slotu reklamowego (miejsca, w którym wyświetlana jest reklama)
  • daty rozpoczęcia emisji
  • długości emisji
  • innych

Różne modele reklamowe

  • CPC (cost per click) - celem jest zwiększenie liczby klików przy jednoczesnej minimalizacji wyświetleń. Innymi słowy maksymalizujemy wskaźnik CTR (click through rate)

CTR = liczba klików / liczba wyświetleń

  • CPM (cost per mile) - celem jest wyświetlenie
    reklamy odpowiednią ilość razy (maksymalizacja liczby klików (CTR) jest celem pobocznym). Są to zazwyczaj reklamy wizerunkowe.

  • CP(L/A) (cost per lead/action) - celem jest zwiększenie liczby akcji specjalnych (rejestracji, wypełnienia formularza, dodania przedmiotu do koszyka,…). Model przypomina CPC jednakże zadanie jest trudniejsze, ponieważ oczekujemy, że użytkownik zrobi coś więcej niż tylko kliknie w reklamę.

Zadania analityka danych:

  1. Przygotowanie danych
  2. Modelowanie
  3. Optymalizacja
  4. Wizualicacja wyników

Technologie i Narzędzia

Początek emisji

Na samym początku emisji kreacji nie ma żadnych danych do modelowania. Do czasu uzbierania odpowiedniej ilości pozytywów (klików) stosowany jest zazwyczaj bardziej ogólny model (oparty np. o kreacje historyczne) lub emisja losowa.

W momencie gdy posiadamy odpowiednią ilość danych rozpoczyna się proces modelowania. Utworzony po raz pierwszy model jest przesyłany do usługi scoringowej, a nowi użytkownicy uzyskują wyceny (scory) na jego podstawie.

Zbiór próbkowy

W celu sprawdzenia czy model działa poprawnie część nowych użytkowników trafia do tak zwanego zbioru próbkowego (ang. probe). Użytkownikom trafiającym do tego zbioru reklama wyświetlana jest zawsze, niezaleznie od wartości ich scora i progu dyskryminacji.

Obliczając wskaźnik CTR dla zbioru próbkowego otrzymujemy informację o tym jakie wyniki możemy otrzymać bez modelowania statystycznego. Jest to nasz punkt odniesienia.

LIFT - miara jakości modelu

Lift jest miarą pokazującą uzysk z włączenia optymalizacji:

Lift = CTR_opt / CTR_probe

Wartość lift > 1 wskazuje na poprawne działanie scoringu, niższe wartości sugerują potrzebę poprawy modelu.

Dane o nowych wyświetleniach i kliknięciach zostają zapisane, a obecny model zostaje na ich podstawie douczony. Nastepnie cykl jest powtarzany.

“Optymalne” rozwiązanie

Aby rozwiązanie było optymalne w procesie modelowania należy uwzględnić wiele innych czynników:

  • długość emisji - kampania reklamowa powinna być zrealizowana w wyznaczonym czasie, uzyskanie wyznaczonej ilości odsłon lub klików musi być rozłozone w tym zakresie
  • model emisji (CPC, CPM,…) - każdy z modeli wymaga innego traktowania
  • wskazania biznesowe

“Wizualizacja wynikow”

Wizualizacja wyników odbywa się równiez w środowisku R przy uzyciu pakietu “shiny”.

Przy jego pomocy tworzone są dashboardy pokazujące zachowanie modeli oraz miari jakości.

SHINY




Dziękuję za uwagę!