שכיחות אותיות בעברית
כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - ישנן אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.
מידע על שכיחות האותיות(אנ') שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.
התפלגות
להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 1990–1991, השני מאגר פרוטוקולים של הכנסת משנת 2004[1] והשלישי הוא מוויקיפדיה העברית[2]. שני הקורפוסים הראשונים מכילים כ-40 מיליון אותיות והאחרון מכיל כ-500 מיליון אותיות.
האות | שכיחות (עיתון הארץ) | שכיחות (כנסת) | שכיחות (ויקיפדיה) | ממוצע משוקלל |
---|---|---|---|---|
א | 6.25% | 4.83% | 4.66% | 4.78% |
ב | 5.22% | 5.27% | 5.36% | 5.34% |
ג | 1.15% | 1.43% | 1.78% | 1.71% |
ד | 3.16% | 2.66% | 2.66% | 2.69% |
ה | 9.22% | 8.78% | 8.40% | 8.48% |
ו | 10.27% | 10.87% | 11.20% | 11.11% |
ז | 1.11% | 0.85% | 0.93% | 0.94% |
ח | 2.52% | 2.47% | 2.20% | 2.24% |
ט | 0.90% | 1.32% | 1.78% | 1.69% |
י | 11.22% | 11.78% | 11.70% | 11.67% |
ך | 0.48% | 0.38% | 0.38% | 0.39% |
כ | 2.62% | 2.27% | 1.88% | 1.96% |
ל | 6.74% | 6.68% | 6.20% | 6.27% |
ם | 3.00% | 3.01% | 2.63% | 2.68% |
מ | 4.72% | 5.31% | 5.13% | 5.11% |
ן | 1.48% | 1.27% | 1.36% | 1.36% |
נ | 3.89% | 3.37% | 3.65% | 3.65% |
ס | 1.69% | 1.73% | 2.23% | 2.16% |
ע | 3.04% | 3.21% | 2.65% | 2.72% |
ף | 0.16% | 0.23% | 0.22% | 0.22% |
פ | 1.50% | 2.05% | 2.29% | 2.22% |
ץ | 0.11% | 0.16% | 0.20% | 0.19% |
צ | 1.37% | 1.34% | 1.30% | 1.31% |
ק | 1.85% | 2.31% | 2.62% | 2.55% |
ר | 5.56% | 5.83% | 6.65% | 6.52% |
ש | 5.00% | 4.77% | 4.24% | 4.33% |
ת | 5.65% | 5.68% | 5.46% | 5.49% |
בשלושת הקורפוסים האותיות הנפוצות ביותר, לפי הסדר, הן שלוש מאותיות אהו"י: י, ו, ה.
להלן שכיחות אותיות לפי תקופות בפרויקט בן יהודה נכון ל-1 בינואר 2022 [1]:
תקופה | עת עתיקה ופיוט | ימי הביניים והרנסאנס | ההשכלה | התחיה | ספרות עברית חדשה | הכול |
שנים | עד 900 לספירה | 900 עד 1700 | 1700 עד 1880 | 1880 עד 1948 | 1948 ואילך | |
API period | ancient | medieval | enlightenment | revival | modern | |
כמות יצירות | 515 | 3,837 | 1,210 | 14,942 | 9,210 | 29,714 |
אותיות עבריות | 333,950 | 3,229,279 | 30,900,565 | 195,997,978 | 127,692,256 | 358,154,028 |
א | 5.97% | 6.67% | 7.14% | 6.31% | 5.80% | 6.20% |
ב | 5.40% | 5.60% | 5.47% | 5.25% | 5.15% | 5.24% |
ג | 1.10% | 1.14% | 1.22% | 1.27% | 1.33% | 1.28% |
ד | 2.58% | 2.91% | 2.99% | 2.90% | 2.71% | 2.84% |
ה | 7.05% | 7.07% | 8.40% | 9.23% | 9.22% | 9.13% |
ו | 12.10% | 12.00% | 11.20% | 11.53% | 11.42% | 11.47% |
ז | 1.38% | 1.03% | 1.07% | 1.04% | 1.02% | 1.04% |
ח | 2.43% | 2.63% | 2.46% | 2.43% | 2.47% | 2.45% |
ט | 1.37% | 0.65% | 0.82% | 0.91% | 1.03% | 0.94% |
י | 10.79% | 11.25% | 10.57% | 10.59% | 11.05% | 10.76% |
כ \ ך | 3.81% | 3.93% | 3.56% | 3.18% | 2.99% | 3.15% |
ל | 6.20% | 6.88% | 6.94% | 7.00% | 6.89% | 6.95% |
מ \ ם | 8.68% | 8.45% | 8.24% | 8.21% | 8.15% | 8.19% |
נ \ ן | 5.46% | 5.04% | 4.81% | 4.85% | 4.69% | 4.79% |
ס | 1.51% | 0.96% | 1.08% | 1.30% | 1.46% | 1.33% |
ע | 3.20% | 3.62% | 3.80% | 3.42% | 3.22% | 3.39% |
פ \ ף | 2.49% | 1.89% | 2.05% | 2.10% | 2.21% | 2.14% |
צ \ ץ | 1.28% | 1.35% | 1.28% | 1.36% | 1.42% | 1.37% |
ק | 1.99% | 1.69% | 1.66% | 1.82% | 1.95% | 1.85% |
ר | 5.43% | 5.81% | 5.90% | 5.53% | 5.52% | 5.56% |
ש | 4.64% | 4.40% | 4.32% | 4.46% | 4.70% | 4.53% |
ת | 5.14% | 5.03% | 5.03% | 5.33% | 5.59% | 5.40% |
סוגי כתיב
כשעוסקים בשכיחות האותיות, חשוב להבחין כי הכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. הטקסטים ששימשו להכנת הטבלה שלעיל כתובים כולם בכתיב מלא. טקסט עברי מנוקד, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.
הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מילים רבות משפות לטיניות וגרמניות, ויש הטוענים[דרושה הבהרה] שגם מבנים דקדוקיים. ודאי הוא שאוצר המילים השתנה מאוד, כמו גם חלק ניכר מאופן השימוש במילים שמקורן קודם לעברית המודרנית.
ראו גם
קישורים חיצוניים
- יהודה ת' רדאי ופרופסור חיים שור, על שכיחות האותיות וההגאים בעברית המקראית והחדשה
- יגאל זורע, שכיחות האותיות ||| כמה רישים יש בכנסת? כמה ממים יש בהארץ?, בבלוג "קווים ונקודות", 15 ביולי 2016
הערות שוליים
- ^ מילה - מרכז ידע לתקשוב בשפה העברית
- ^ נכון למאי 2016
35143694שכיחות אותיות בעברית