
Na co patrzy sztuczna inteligencja?
Cześć! W ostatnim artykule, na przykładzie modelu VGG16, pokazałem Ci, w jaki sposób sztuczna inteligencja przetwarza obraz i czego na nim szuka. Pora zatem odpowiedzieć sobie na kolejne pytanie: które fragmenty obrazu są najbardziej istotne i decydują o danej klasyfikacji?
Klasyfikacja to proces przetwarzania obrazu, kończący się przydzieleniem etykiety. Jeżeli do naszego modelu wrzucimy zdjęcia psa i model zadecyduje, że na zdjęciu jest pies, to „PIES” jest etykietą, a „DECYZJA” – klasyfikacją.
Gdzie się patrzy sieć neuronowa?
Żeby się tego dowiedzieć, skorzystamy z popularnej metody, jaką jest nanoszenie map ciepła na obraz.
Zanim jednak zaczniemy nasz eksperyment, musimy uzyskać mapę ciepła dla danego obrazu. Proces ten jest dość skomplikowany, ponieważ wymaga on obliczenia gradientów wstecznych dla predykcji modelu w stosunku do aktywacji warstw konwolucyjnych.
Zobaczmy zatem, jak to wygląda w praktyce. Ilustracja przedstawia skalną ścianę (fragment drogi do jaskini w Dolinie Chochołowskiej) oraz mapę ciepła naniesioną na ten sam obraz.
Efekt jest zaskakujący, a wnioski nasuwają się same. Cieplejsze obszary (te zabarwione na czerwono i żółto) na obrazie są decydujące w kontekście klasyfikacji. Model VGG16 uznał, że na zdjęciu znajduje się klif (nadał taką etykietę), i chyba możemy się z nim zgodzić.
Pora zatem na kolejny przykład – będzie to zdjęcie królika.
Model uznał, że na zdjęciu znajduje się chomik. Ocenił to na podstawie prawdopodobieństwa, które dla tej etykiety było najwyższe i wynosiło 27%. Wynika to również z tego, że model VGG16 nie ma w swoim zbiorze (etykiet) etykiety „królik”. Więc z pełnym wyrozumieniem zgadzamy się z jego decyzją.
O tym, że na zdjęciu znajduje się chomik, zadecydowało oko oraz fragment ucha. Spróbujmy zamazać te obszary i sprawdźmy, jaki będzie wynik.
Widzimy, że tym razem mapa ciepła jest zupełnie inna – cały obraz był bardzo aktywny podczas klasyfikacji, oczywiście z wyłączeniem białych plam, które naniosłem w poprzednie decyzyjne miejsca. Jaka jest zatem etykieta?
Jest to iPad z prawdopodobieństwem 41%, na drugim miejscu jest hantla do ćwiczeń z wynikiem 5%. Niedowierzam…
Sprawdźmy jeszcze, co się stanie, jeżeli zmodyfikujemy obraz – zmienię wielkość oka.
Model jednoznacznie dla obu obrazów stwierdził, że na zdjęciu znajduje się buldog francuski, pomimo tego, że każde zdjęcie ma zupełnie inną mapę ciepła odpowiedzialną za tą klasyfikację.
Pierwsze zdjęcie od lewej uzyskało 28% prawdopodobieństwa, że znajduje się na nim buldog francuski, drugie wynik o połowę mniejszy – 14%.
Czy warto korzystać z map ciepła?
Oczywiście, że warto. Myślę, że co do tego nikt nie ma złudzeń. Właśnie przekonaliśmy się, jak modyfikacja oryginalnego obrazu może wpłynąć na werdykt sztucznej inteligencji. Model VGG16 jest dość starym i bardzo elastycznym modelem, więc tym bardziej jest narażony na takie działania.
Mapy ciepła pomagają nam zrozumieć, co dla sieci konwolucyjnej jest aktualnie istotne, a taka informacja może być przydatna podczas procesu debugowania.
