בגדול משינה כבר סיכמה את היחס בישראל לפוליטיקה – נהוג לקטר כשמתחילה תקופת בחירות.
לא רק שצריך לחשוב מי הכי מתאים להנהיג את המדינה או את מי נבחר להאשים במצב בשנים הקרובות, עם ריבוי המפלגות הדומות ואפרוריות המועמדים זה הופך להיות 50 גוונים של אפור רק עם ביקורות יותר גרועות. מילא זה, ברגע שאתה כבר מחליט מה המפלגה הכי מתאימה אתה מגלה שהחבר’ה בעבודה שהחשבת עד היום כנורמטיביים הם בעצם חסרי הבנה של מה יעשה טוב למדינה ובגדול טיפוסים הזויים ימניים/שמאלניים/דתיים/חילונים/נהגי-מוניות מדי. וגם יש את עניין העלות למשק של יום שבתון. בקיצור, לא קל…
אבל, מצד שני בחירות זו הזדמנות מצוינת לכל מי שמתעניין בחיים האמיתיים או בנתונים, ולא תמיד יש סתירה ביניהם. הפוליטיקאים מתראיינים בלי הפסקה, הסוקרים סוקרים, העיתונאים מתפייטים ונותנים הערכות, נתונים מספריים על בוחרים מתפרסמים. והכל מתועד או כמו שאומר הגשש “היד פתוח והפנקס רושמת“
אז לאור צו השעה של בחירות 2019 נתחיל בסידרה של פוסטים שיתארו את הפוליטיקה העכשווית כפי שהיא משתקפת בנתונים פומביים בעיקר מטוויטר וגם מקורות נוספים כמו סקרים ועוד.
למה טוויטר ?
כי בטוויטר יש עושר של מקורות טקסטואלים – עיתונים, ערוצי רדיו וטלוויזיה, משרדי ממשלה, ארגונים לא ממשלתיים, חשבונות פרטיים של עיתונאים, פוליטיקאים, מפלגות, והמון אנשים פרטיים שמשקפים ברמה כזו או אחרת את הדעה של הציבור.
ברמה הטכנית, השפה שבה אנשים כותבים בטוויטר שונה מזו שמשתמשים בה בעיתונים או אפילו בחיי היום יום. כל ציוץ (tweet) הוא טקסט מוגבל באורכו ל-280 תווים, והדקדוק והתחביר של טקסט זה לא בהכרח תיקניים, מה שמקשה לא מעט על ניתוח אוטומטי ע”י מודלים סטנדרטיים לעיבוד שפה. אבל, מצד שני, החדשות הטובות הן שטוויטר חושף ממשק שדרכו מתכנתים יכולים להוריד כמויות גדולות של מידע פומבי בצורה קלה יחסית, כך שעל אף הקשיים שווה להתאמץ.
מה למשל אפשר לעשות עם המידע שמפורסם בטוויטר ?
- למצוא פוליטיקאים דומים שהופרדו משום מה למפלגות שונות
- לגלות קשרים נסתרים בין ערוצי תקשורת ועיתונאים למפלגות או מתמודדים
- לסמן את תחומי הפעילות של כל פוליטיקאי
- למדוד את שביעות הרצון של הציבור מפוליטיקאים בתחומי פעילות שונים ואיזורים גיאוגרפים שונים
- להתאכזב ממי שהופך להיות חברתי/בטחוני/משהו-שחשוב-לך לכבוד הקמפיין ואז נעלם מהראדאר עד הבחירות הבאות.
- …
מה יהיה ומה לא יהיה בבלוג הזה?
- נציג רק דברים שעולים אובייקטיבית מהנתונים.
- נימנע מהטיה פוליטית כגון המלצה או ביקורת על מפלגה, מועמד, וכו’.
- לא נבצע באופן אקטיבי סקרים, אך כן נעשה שימוש בסקרים שפורסמו פומבית.
טוב, מספיק הקדמות… בפוסט הבא כבר נתחיל לראות דברים מעניינים
הערות והרחבות
- מתעניינים במדע נתונים ושואלים איזו שפת תכנות הכי מתאימה לכם? ברוב הסקרים Python מובילה בפופולאריות בקרב מדעני נתונים. למשל פה.
- רוצים ללמוד עוד על Twitter Developer API? לכו לפה. אני משתמש בחבילת Python בשם Tweepy לצורך הממשק עם טוויטר.