Biblioteka Pandas¶
Jednym z pierwszych kroków, które musimy wykonać, zanim przejdziemy do analizowania ciekawych danych, jest wczytanie tychże danych do programu. W tym pomoże nam biblioteka pandas, która diametralnie ułatwia pracę z danymi tabelarycznymi w Pythonie.
Pandas to biblioteka przeznaczona do analizy i przetwarzania danych. Jej głównymi strukturami danych są jednowymiarowe serie danych (ang. Series) oraz wielowymiarowe ramki danych (ang. DataFrame). Ramki danych przypominają trochę tabele w programie Excel – mają wiersze i kolumny.
Instalacja¶
Aby korzystać z biblioteki pandas, najpierw należy ją zainstalować. Możemy to zrobić w niemalże trywialny sposób, wpisując w terminalu poniższe polecenie:
Pierwsze kroki z pandas¶
Zacznijmy od prostego przykładu. Załóżmy, że mamy pewne dane o sprzedaży owoców:
import pandas as pd
fruits = {
'Owoce': ['Jabłka', 'Banany', 'Wiśnie'],
'Ilość': [10, 5, 8],
'Cena': [3.5, 1.2, 2.5]
}
df = pd.DataFrame(fruits)
print(df)
Po wydrukowaniu ramki danych zobaczymy poniższą tabelkę:
Jak korzystać z danych?¶
Pandas oferuje wiele narzędzi do pracy z danymi. Poniżej kilka przykładów.
Wybór kolumny¶
Filtrowanie danych¶
Podstawowe statystyki¶
Dlaczego warto używać pandas?¶
- Elastyczność - przetwarzaj dane tak, jak potrzebujesz.
- Wydajność - obsługuje duże zestawy danych.
- Integracja - łatwo łączy się z innymi bibliotekami Pythona.
- Wsparcie dla różnych formatów - czytaj i zapisuj w formatach CSV, Excel, SQL i wielu innych.
Podsumowanie¶
Pandas to potężne narzędzie do przetwarzania danych w Pythonie. Dzięki intuicyjnym strukturom danych i wielu funkcjom ułatwia analizę nawet skomplikowanych zestawów informacji. A to tylko wierzchołek góry lodowej! Zachęcamy do dalszej eksploracji tej fantastycznej biblioteki.