Pandas, Python programlama dilinde geliştirilen güçlü bir veri analizi ve manipülasyon kütüphanesidir. Adını “panel data” teriminden alır ve özellikle tablo benzeri verileri işlemek için tasarlanmıştır. Pandas, temel olarak iki ana veri yapısı olan Series ve DataFrame’i sunar. Series, tek boyutlu verileri, DataFrame ise çok boyutlu tablo benzeri verileri temsil eder. Bu yapılar, verilerin saklanması, işlenmesi ve analiz edilmesi için güçlü araçlar sunar.
1-Veri Yapıları: Pandas, veri depolama ve manipülasyonu için iki temel veri yapısı olan Series ve DataFrame’i sunması. İlerleyen süreçte bol bol Series ve DataFrame bahsedeceğiz.
2- Veri Manipülasyonu: Pandas, verilerin seçilmesi, filtrelenmesi, gruplanması, dönüştürülmesi ve birleştirilmesi gibi bir dizi işlemi kolayca gerçekleştirmenizi sağlar. Bu, veri analizi ve işleme süreçlerini daha hızlı ve daha az kodla yapmanıza olanak tanır.
3-Veri Temizleme:. Pandas, bu tür verilerin temizlenmesini ve düzeltilmesini kolaylaştıran araçlar sunar. Eksik verilerle başa çıkmak, veri analizinde doğru sonuçlara ulaşmak için önemlidir.
4- Veri Analizi ve Görselleştirme: Pandas, istatistiksel hesaplamaları gerçekleştirmek ve verileri görselleştirmek için çeşitli araçlar sunar. Veri analizini daha anlamlı hale getirmek için grafikler, tablolar ve istatistikler oluşturabilirsiniz. Python’nın veri görselleştirme konusunda matplotlib ve seaborn gibi ünlü kütüphaneleri olsa da pandasta içerisinde olması artılarından biridir.
5- Veri Entegrasyonu: Pandas, farklı veri kaynaklarından (CSV dosyaları, Excel dosyaları, veritabanları vb.) veri okuma ve yazma işlemleri için kullanılabilir. Bu, farklı kaynaklardan gelen verileri bir araya getirerek daha kapsamlı analizler yapmanıza yardımcı olabilir.
6- Performans Optimizasyonu: Pandas, vektörleştirilmiş işlemler ve optimize edilmiş veri yapısı kullanımıyla yüksek performanslı veri manipülasyonu sağlar. Bu, büyük veri kümeleriyle çalışırken bile etkili bir şekilde çalışmanıza olanak tanır.
7- Topluluk Desteği ve Dokümantasyon: Pandas, geniş bir kullanıcı topluluğuna sahiptir. Bu topluluk, çeşitli sorunlarınıza çözümler bulmanıza ve daha etkili kod yazmanıza yardımcı olabilir. Ayrıca, kapsamlı ve kullanıcı dostu bir dokümantasyonu vardır.
Veri tipi, verilerinizin Python’un verilerinizi nasıl işleyeceğini, kullanacağını veya depolayacağını belirleyen içsel bir yapı gibidir. Veri analizi yaparken, hatalardan kaçınmak için doğru veri tiplerini kullanmak önemlidir. Pandas genellikle veri tiplerini doğru bir şekilde çıkarır, ancak bazen veriyi açıkça dönüştürmemiz gerekebilir. Şimdi Pandas’ta mevcut olan veri tiplerini, aynı zamanda “dtypes” olarak adlandırılan bu veri tiplerini inceleyelim.
Pandas Veri Yapıları ve Veri Tipleri
object: Metin veya karışık sayısal veya sayısal olmayan değerler
int64: Tamsayı (integer) değerler
bool: Doğru/Yanlış (true/false) değerleri
float64: Ondalık (floating point) sayılar
category: Sınırlı bir liste içeren metin değerleri
datetime64: Tarih ve saat değerleri
timedelta[ns]: İki tarih arasındaki farklar
Bir veri yapısı, verilerimizi belirli bir şekilde düzenleme yöntemidir. Pandas’ın iki veri yapısı vardır ve tüm işlemler bu iki nesneye dayanmaktadır:
Series (Seriler): Bu, sütunları temsil eden bir çizelge olarak düşünülebilir, ve DataFrame, Seriler koleksiyonundan oluşan bir tabloya benzetilebilir. Serileri, her türden veriyi depolayabilen 2B bir dizinin tek sütunu olarak en iyi şekilde tanımlayabiliriz.
DataFrame (Veri Çerçevesi): Bu, çok sayıda sütun ve satır içeren bir tablo olarak düşünülebilir. Her bir değer, bir Satır İndeksi ve Bir Sütun İndeksi ile ilişkilendirilir.
Veri Oluşturma ve Okuma Fonksiyonları:
pd.Series(): Tek boyutlu bir Series veri yapısı oluşturur.
pd.DataFrame(): Çok boyutlu bir DataFrame veri yapısı oluşturur.
pd.read_csv(): CSV dosyasından veriyi okur ve DataFrame’e dönüştürür.
pd.read_excel(): Excel dosyasından veriyi okur.
pd.read_sql(): Veritabanından veriyi okur.
import pandas as pd # Pandas Kütüphanesini kullanmak için dizine ekliyoruz.
# Series oluşturma
s = pd.Series([10, 20, 30, 40, 50])
# DataFrame oluşturma
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 22]}
df = pd.DataFrame(data)
print(df)
# Son 3 satırı gösterme
last_rows = df.tail(3)
# DataFrame hakkında bilgi
df_info = df.info()
# Sayısal sütunların istatistiksel bilgileri
df_describe = df.describe()
20 yaşından büyük kayıtları listeleme
import pandas as pd # Pandas Kütüphanesini kullanmak için dizine ekliyoruz.
# Series oluşturma
s = pd.Series([10, 20, 30, 40, 50])
# CSV dosyasından veri okuma
csv_data = pd.read_csv('data.csv')
# Excel dosyasından veri okuma
excel_data = pd.read_excel('data.xlsx')
# DataFrame oluşturma
df = pd.DataFrame(excel_data)
# İlk 5 satırı gösterme
first_rows = df.head()
yas = df['yaş']
yas_20_ustu = df[df['yaş'] > 20]
print(yas_20_ustu)