יום חמישי, 27 במאי 2010

איך מחסור בכלים לניתוח עברית בולם מיזמים בתחום השפה בארץ

כולם יודעים ששוק בישראל קטן וכל חברה שרוצה לשרוד חייבת להצליח בחו"ל. זה נכון גם בתעשיית השפה – אין מספיק צורך בתרגום מעברית או לעברית, אין מספיק אתרים בעברית ובסופו של דבר אין מספיק דוברי עברית. האם זה לא אומר שעדיף ליזמים להתמקד בשפות חשובות, כמו אנגלית, ספרדית או אפילו סינית. בהחלט! אז למה אני טוען שדווקא מחסור בכלים לניתוח עברית בולם מיזמים?

בואו נתחיל מהתחלה. מיזם נולד מרעיון, שמציע פתרון לבעיה קיימת או עונה לצורך מסוים. רעיון כזה לא נולד ככה סתם אצל כל אחד, אלא מתפרץ במוחו הקודח של אדם שחווה את הבעיה ומרגיש את הצורך על בסיס יום-יומי. כך למשל הרבה רעיונות על איך לשלב מחשב בתהליך התרגום הוצעו דווקא ע"י מתרגמים מקצועיים ולא ע"י אנשי מדעי המחשב. מרבית מיזמים חדשים הקשורים לתחום השפה מתמקדים באינטרנט (או אינטראנט) - סביבה גדושה באנשים ובאינפורמציה. ומי עומד מאחורי המיזמים האלה? אנשי המדיה והתוכן או אולי גולשים רגילים, שנדבקו בחיידק היזמות.

היזמים אוספים מסביבם קבוצה של אנשים קרובים, אשר בד"כ כוללת גם איש פיתוח (במקרים נדירים יש לו גם ניסיון כזה או אחר בעיבוד שפות טבעיות), והם מתחילים לחשוב על האב-טיפוס והדמו. הזמן חשוב יותר מכל דבר אחר ולכן הולכים הרבה על מוצרי מדף, חינמיים או בתשלום סביר, אשר אפשר למצוא באינטרנט ולהרכיב מהם את הפתרון. ויש הרבה כלים כאלה גם בתחום השפה. רק שכולם מתמקדים (ובצדק!) בשפות פופולאריות, כמו אנגלית, ספרדית, ערבית, סינית. גם האב-טיפוס של היזמים שלנו יתמקד, קרוב לוודאי, באנגלית – אם זה אתרי אינטרנט בשפה אנגלית, אינפורמציה באנגלית או קהל יעד דובר\קורא אנגלית.

בשלב הבא הדמו מוכן וצריך להתחיל להתרוצץ בין הלקוחות הפוטנציאליים והמשקיעים בניסיון לגייס הון התחלתי ואולי למצוא לקוח ראשון. למי ילכו? לאנשים שהם מכירים, כמובן! מהעבודה, מהצבא, מהמשפחה. ופה טמון המוקש. אנשים אלה אחראיים על המדיה ואתרי התוכן בארץ והרבה פעמים מה שהיזמים שלנו ישמעו אחרי המצגת יהיה: "רעיון מצוין חבר'ה, יש לכם כזה בעברית?". אז חוזרים לעבודה ומחפשים במרץ חבילות שתומכות עברית ולא מוצאים, כי אין.

זה אמנם מכשול רציני, אך אין זה הסוף. מנסים לחפש לקוחות בחו"ל וזה הרבה יותר קשה. זהו רף הרבה יותר גבוה, זאת מסננת הרבה יותר עדינה. עוברים דרכה הכי חזקים, הכי מנוסים והכי מקושרים, אך לאו דווקא בעלי רעיון הכי טוב.

אז אילו כלים לניתוח עברית בכל זאת קיימים? בשנת 2002 הוקמה "מילה" - מרכז ידע לתקשוב בשפה העברית בתמיכה של אוניברסיטאות ומשרד המדע. המרכז שם לעצמו מטרה "להתמקד בפיתוח של תשתיות ושל מחקר יישומי בשפה העברית במטרה ליצור את התשתית התיאורטית והיישומית לממשקי אדם מכונה מתקדמים בעברית". במהלך שמונה שנים, הצליחו ב"מילה" לפתח מנתח מורפולוגי מצוין (יכול משמש גם כמחולל מורפולוגי), לאסוף קורפוס מכובד (כ-40 מיליון מילים) ולבנות לקסיקון של עברית שכולל יותר מ-20,000 כניסות. נמשכת עבודה על המתייג חלקי דיבר (disambiguator). ניתן לציין גם Treebank של עברית – כ-6,500 משפטים מנותחים מורפולוגית ותחבירית. ישנה גם חבילה לזיהוי שמות פרטיים, שאנוכי פיתחתי במסגרת תזת המסטר שלי, אך מצבה רחוק מלהיות מוצר מסחרי. בשנים אחרונות הואטה עבודתו של המרכז בעיקר בשל היעדר תקציבים חדשים.  ועדיין חסרים כלים רבים – אין מנתחים תחביריים (לא shallow parsers  
ולא full parsers) ואין כלים לניתוח סמנטי או כלים לאחזור מידע.

אנשים שלא מתמצאים בפרטי-פרטים של עיבוד שפה עלולים לתהות למה כל כך קשה לפתח כלים לעברית, כשהם כבר מזמן קיימים לשפות אחרות. ואמנם, רוב הכלים הקיימים בנויים על מנועים סטטיסטיים כלליים, אך עדיין חסרים לנו שני דברים. ראשית, על מנת להשתמש במנוע סטטיסטי, כלומר לאמן מודל הסתברותי, חייבים הרבה קורפוס מתויג ומנותח ואין לנו. (בשנים אחרונות זוכות שיטות שלא דורשות קורפוס מתויג לפופולאריות רבה, אך הנושא עדיין בשלבי מחקר). שנית, עברית היא שפה מאוד מיוחדת, המציבה בפנינו אתגרים רבים: הכתב, כיוון הכתיבה, המורפולוגיה העשירה, השילוב המיוחד של שורש ומשקל. הרבה פעמים דרוש מחקר אקדמי מעמיק על מנת להתאים שיטות קיימות לעברית ולפעמים אף יש צורך בפיתוח שיטות מיוחדות. מחקר כזה דורש הרבה זמן ואורך שנים.

אז מה בכל זאת אפשר לעשות? בעולם הכלים לניתוח שפה מפותחים במסגרות אוניברסיטאיות או בפרויקטים של קוד פתוח, כמו OpenNLP  או Lucene (אני לא מתייחס לחברות עסקיות, כי ממילא לא יסכימו להתחלק). בישראל, לא הייתי תולה את תקוותי ב"מילה". המרכז ימשיך את פעילותו, אך ללא הזרמת תקציבים חדשים הוא ילך וידעך. (אולי כתוצאה מפרסום צנוע זה,יותר אנשים יבואו וירכשו מוצרים של המרכז). האופציה השנייה היא קוד פתוח. אינני יודע אם ישנם פרויקטים לפיתוח כלים לעברית, אך תמיד אשמח להצטרף.

3 תגובות:

  1. גם אני אשמח מאוד לשמוע על מיזמים כאלה, אם תמצא.

    השבמחק
  2. יוזמה שאולי תעניין את קוראי הפוסט הזה היא מנתח מורפולוגי לעברית תחת Lucene. איתמר סין-הרשקו, היוזם, סוקר את הרעיון בבלוג שלו:
    http://www.code972.com/blog/2010/06/open-source-hebrew-information-retrieval

    השבמחק
  3. היי, אני מחפשת לפיתוח בתחום רפואי - מומחה/ית בתחום של עיבוד שפה טבעית, להוביל את התחום בחברה
    meirav@wisemen.co.il
    03-9194555

    השבמחק