Pandas

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
pandas
מפתח וס מקיני
מחזור חיים 11 בינואר 2008 – הווה (17 שנים)
מערכת הפעלה נתמכת בכל מערכות ההפעלה (Cross-platform)
נכתבה בשפות פייתון, Cython, C
סוג רישיון רישיון BSD
קטגוריה ניתוח נתונים
https://pandas.pydata.org/

בתכנות מחשבים, pandas היא ספריית תוכנה שנכתבה עבור שפת התכנות פייתון ומיועדת לניתוח ועיבוד נתונים.[1] בפרט, היא מציעה מבני נתונים ופעולות לעיבוד מבני נתונים נומריים וסדרות עתיות. pandas היא תוכנה חופשית ופורסמה תחת רישיון BSD.[2] השם נגזר מן המונח "panel data",[3] מונח מתחום האקונומטריקה המתייחס למערכי נתונים הכוללים תצפיות על פני מספר תקופות זמן ביחס לאותם פרטים.[4]

פיצ'רים

  • יצירת אובייקטים בשם DataFrame, המאפשר עריכה וסידור של נתונים בשילוב אינדקס.
  • כלים לקריאה וכתיבת נתונים בין מבני נתונים בזיכרון לבין פורמטים שונים של קבצים.
  • יישור נתונים, חיתוך על פי עמודות או שורות וטיפול מהיר בנתונים חסרים.
  • עיצוב מחדש וסיבוב (pivot) של מערכי נתונים.
  • הכנסה ומחיקה של עמודות מבנה נתונים.
  • פעולות אגרגציה מהירות על הנתונים.
  • מיזוג וצירוף (join) מערכים.
  • פונקציונליות המאפשרות ניתוח סדרות עתיות.[5]
  • כלים לסינון (filter) נתונים.

הספרייה מאופיינת בביצועים אופטימליים, כאשר חלקים גדולים ממנה נכתבו ב- Cython או ב-C (שפות תכנות הנחשבות לבעלות יכולות ביצוע מהירות).[6] בנוסף, הספרייה נבנתה על בסיס ספריית NumPy, אשר גם לה יכולות ביצועיות גבוהות.

DataFrames

השימוש העיקרי בספריה הוא ניתוח ועריכת נתונים, ובדגש על נתונים המסודרים בטבלאות, באמצעות האובייקט הייחודי לספרייה - DataFrame. באמצעות הספרייה ניתן לייבא נתונים מפורמטים שונים, למשל CSV, JSON, מסדי נתונים או שאילתות SQL ועוד, והפיכתם ל-DataFrame.[7] בפורמט החדש, ניתן בקלות ובמהירות לבצע מניפולציות שונות על מערך הנתונים, כמו מיזוג,[8] עיצוב מחדש, [9] שליפה,[10] ניקוי (הסרת נתונים שאינם רלוונטיים) ועוד. השימוש באובייקט זה הביא לכך שתכונות רבות לניתוחי נתונים, שמקורם בשפת התכנות R, הובאו לשפת פייתון.

היסטוריה

הספרייה פותחה על ידי וס מקיני, אשר החל לעבוד עליה בשנת 2008. בעודו מועסק בחברת ההשקעות AQR Capital, נדרש וס לכלי שיאפשר לו ניתוח נתונים פיננסיים בעל יכולות ביצועיות גבוהות ובעל גמישות. בטרם עזב את חברת AQR, הצליח לשכנע את ההנהלה לשחרר את pandas לציבור הרחב, כספריית קוד פתוח.

ציר זמן:[11]

  • 2008: תחילת פיתוח הספרייה.
  • 2009: הספרייה הופכת לספריית קוד פתוח.
  • 2012: פרסום המהדורה הראשונה של הספר Python for Data Analysis, הממוקד בשימוש בספרייה.
  • 2015: הספרייה מקבלת חסות מעמותת NumFOCUS האמריקאית[12]

דוגמאות לשימוש בספרייה יחד עם ספריית יצירת גרפים

גרף עקומות

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()

גרף עמודות

df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()

לקריאה נוספת

  • McKinney, Wes (2017). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (2nd ed.). Sebastopol: O'Reilly. ISBN 978-1-4919-5766-0.
  • Chen, Daniel Y. (2018). Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley. ISBN 978-0-13-454706-0.

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא Pandas בוויקישיתוף

הערות שוליים

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

35000568Pandas