יום שלישי, 29 בדצמבר 2009

מאקדמיה לתעשיה: יש למה לצפות אחרי התואר !?

לפני כשנה עזבתי את משרת ארכיטקט המבטיחה שהיתה לי בתעשיית התקשורת וחזרתי לאקדמיה לעשות תואר שלישי במדעי המחשב.  בחרתי להתמחות בבלשנות חישובית כהמשך למה שעשיתי בתואר שני, אך בניגוד מוחלט לנושאים בהם עסקתי בעשור ש"ביליתי" בתעשיה. ידעתי, שאני מכניס את עצמי לתוך נישה מאוד צרה ומקום עבודה בתחום לא מובטח לי כלל, ובכל זאת עשיתי את זה. למה? כי אני, אשר גדלתי בעולם קפיטליסטי מוקף במניות ואג"חים, מאמין בעקרון הסיכוי-סיכוי: תעשיית תקשורת הרוויה והמוגבלת על ידי אין ספור רגולטורים מאפשרת הרבה פחות הזדמנויות, מאשר תעשיית השפה מצפה להתגלות. אל תבינו אותי לא נכון - יש בי אהבה גדולה לתחום, זה פשוט לא הגורם המכריע.
אין זה באופי שלי לקפוץ למים מבלי לבדוק את הטמפרטורה. לכן עשיתי מחקר קטן על מנת להבין את המצב של טכנולוגיות השפה (כך אתייחס למכלול התחומים בבלשנות החישובית ונגזרותייהם) בתעשייה הישראלית. מנבירה במאגרי חברות היי-טק בישראל, כגון דנסגייד, מצטיירת תמונה פסימית משהו. קליר פורסט (ClearForest), החברה הידועה ביותר בתחום העסיקה בין 20 ל-50 אנשים בלבד  לפני הרכישה (וכמה מהם מהנדסים או חוקרים?). אינני יודע כמה חוקרים ומהנדסים מועסקים בה עכשיו, אך אני משער שלא יותר מ-50. רוב החברות הנוספות אשר הצלחתי למצוא מעסיקות מתחת ל-20 אנשים ופונות בעיקר לשוק המקומי עם יישומים כמו  אחזור וניתוח מידע פיננסי או מידע מכל סוג אחר,  לוקליזציה של אתרי אינטרנט, OCR  וכו'. פלח שוק לא מבוטל שייך לתעשיות בטחוניות.
אך התמונה הזאת מטעה. היום, בלשנות חישובית הוא תחום נישה קטן ולכן אנחנו לא נראה הרבה חברות שזו ההתמחות היחידה שלהן. בהרבה חברות, המתעסקות לכאורה בתחומים רחוקים מטכנולוגיות השפה, יש צורך קבוע במומחים לבלשנות חישובית. למשל, חברה  אשר מפתחת ציוד האזנה ברשת ו/או טלפוניה חייבת מישהו שיפתח אלגוריתמים המסוגלים לזהות תבניות מסוימות בדיבור או בטקסט. חברות רבות בישראל, המפתחות יישומים מבוססי זיהוי דיבור אוטומטי לטלפונים ניידים, מעסיקות מומחים לבלשנות חישובית. גם תחומים רבים אחרים, כגון פרסום קונטקסטואלי באינטרנט  או בניית מודלים פיננסיים על בסיס ניתוח של סנטימנט המשקיעים מצריכים יכולות בלשניות שונות. החברות האלה מעסיקות צוותים של בלשנים חישוביים או לחלופין פונות למיקור חוץ. אך, הרבה מאוד הזדמנויות עדיין לא זוהו ולא נוצלו.


ומה קורה בעולם? איחוד אירופי משקיע כמיליארד יורו מדי שנה כדי לתרגם את כל המסמכים הרשמיים ל-20 שפות ומשווע למערכת תרגום אוטומטית. ארה"ב משקיע הון עתק כדי לעקוב אחרי כל מי שהשתמש במילה ג'יהאד ברשת ו/או שיחת טלפון. אך, המנוע הכי חזק לעלייה בפופולריות של תעשיית השפה הוא ללא ספק האינטרנט. Yahoo מדווחת על 5 ג'יגהביית של מידע שעובר יום-יום דרך מנוע החיפוש שלהם. וזה רק משאילתות. ענקי האינטרנט, כמו Google ו- Yahoo, עוברים להשתמש בשיטות חישוביות לאיבוד טקסט. הפופולריות של תעשיית השפה התחילה לעלות בתחילת העשור הראשון של המאה ה-21 והגיעה לשיאה ב-2006, כשקבוצת גרטנר כללה לא פחות משלושה תחומים הקשורים לבלשנות חישובית בעקומת הטכנולוגיות החדשות: תרגום אוטומטי מדיבור לדיבור, זיהוי דיבור לטלפונים ניידים ו-web סמנטי  - הבסיס של web 3.0.

 Emerging technologies hype curve, 2006

מאז הגיעו המשברים ואיתם גם ירידה בפופולריות של כל תחום חדשני. ב-2007 התרגום האוטומטי מדיבור לדיבור ירד בינתיים מהפרק וה-web הסמנטי נפל לנקודה הנמוכה בגרף, שבה העתונות פשוט מפסיקה להתעניין מרוב האכזבה. ובהמשך גם הוא נעלם. אך, יש לזכור שהעקומה מבטאת בעיקר את רמות התעניינות של הציבור בטכנולוגיות וכל טכנולוגיה בעולם עוברת או כבר עברה דרך דומה. עדיין פועלות בעולם מאות רבות של חברות העוסקות בתחום התרגום האוטמטי וה-web הסמנטי. מדי שנה מכריז כתב העת המקוון Read-Write-Web על עשרה המוצרים המוצלחים ביותר בתחום ה-web הסמנטי. ברור כבר עכשיו, שעם תום המשבר, הבלשנות החישובית ונגזרותיה יחזרו למרכז המפה הטכנולוגית.

אז למה בישראל התחום מקרטע? למה אנחנו לא מובילים את העולם כמו בתקשורת או IT ? ההיי-טק הישראלי שואב את כוחו משני מקורות: הצבא והאקדמיה. והוא פונה לשוק הגלובלי. מן הסתם, הצבא מאוד מעוניין בפיתוח יישומים מבוססי טכנולוגיית השפה. אך האופי האזורי והחשאי של מוצרים אלה מעלה שאלה אם איי-פעם נראה את הידע הנרכש שם פורץ לאזרחות ונותן חיים לתעשייה הפונה לשוק הגלובלי. אני תולה את התקווה שלי באקדמיה דווקא. ב-ISCOL האחרון שמחתי לראות כמה גדלה הקהילה שלנו ב-5-6 שנים האחרונות.

אך, עדיין לא הגענו למסה הקריטת. עדיין, אין בארץ מספיק תעסוקה למומחים בטכנולוגיות השפה - מה שמרתיע מסטודנטים חדשים להיכנס לתחום. אנחנו צריכים שהאנשים אשר מסיימים היום את לימודיהם בתחומים הקשורים לטכנולוגיות השפה יפנו ליזמות (לפחות חלקם) במקום לחפש תעסוקה במרכזי מחקר של Google, IBM, Yahoo או Microsoft. הדבר ייצור מקומות עבודה חדשים וימשוך סטודנטים חדשים לתחום. הסטודנטים האלה גם יפנו ליזמות ואולי-אולי תהיה לנו מסה קריטת הדרושה כדי להקים CheckPoint, Comverse או NICE הבאים - כל החברות האלה צמחו מתחום נישה.

בעבר נעשו ניסיונות לרכז את המידע על הבלשנות החישובית בישראל במקום אחד. למשל, אתר Wiki וקבוצת NLP ב-LinkedIn של עידו לב. אך, המטרה שלי שונה. אני מנסה ולהדק קשרים בין האקדמיה לתעשיה בכל מה שקשור לבלשנות חישובית ולשכנע אנשים לפנות ליזמות בתחום. בבלוג זה אני הולך לפרסם סדרת פוסטים, כשכל פוסט יעסוק בתת-תחום מסוים של הבלשנות החישובית, החל מתרגום אוטומטי (תחום המחקר שלי). אני אנסה לנתח את ה- state-of-the-art האקדמי מצד אחד ואת דרישות השוק מצד שני ולנסות לחשוב על מיזמים אפשריים. אני גם בונה על תגובותיכם והערותיכם, קוראים יקרים. כוונו אותי לתחומים שאתם מאמינים בהם, תקנו את שגיאותיי, תעירו על מה שכבר כתבתי. מאוד אשמח לקבל יותר מידע על החברות הפועלות בישראל בתחומים שלנו ולפרסם אותו.


תהנו.

6 תגובות:

  1. אני שמח על כל פרסום ישראלי על בלשנות חישובית, תחזקנה ידיך!
    אבל בכל זאת לא מסכים עם כל דבריך... "תולה את התקווה באקדמיה?" בחרת דוגמא גרועה במיוחד, משום שב-2009 בכלל לא התקיים ISCOL, ואילו את את ISCOL 2008 ארגנו זוג דוקטורנטים בהתנדבות.

    השבמחק
  2. מזל טוב על הבלוג. יהיה מעניין לשמוע את הרעיונות שלך.

    השבמחק
  3. באופן היסטורי ISCOL מאורגן ע"י הסטודנטים, מאז ששולי וינטנר התחיל עם זה בשנות התשעים. היית צריך להיות ב-ISCOL-2001, כדי להבין את ההבדל

    השבמחק
  4. היי
    הייתי שמחה לקבל את המייל שלך

    תודה
    מאיה

    השבמחק
    תשובות
    1. הי גנדי,

      אחלה בלוג, וכישראלי יוצא USSSR אל תשכח את הה'. לא אני לא דתי :) אתה שוכח להוסיף ה' :):):)

      מחק
    2. לפני שנה עזבתי את משרת -ה- ארכיטקט.. זה מציק בלי... ואני לא בלשן או בבליוגרף או משהו.. סתם משועמם :)

      מחק