Re: Fwd: מזכיר הממשלה מזמין את הציבור להשתתף במיזם לשימור וקידום השפה העברית

2011-09-11 חוט E L
2011/9/9 Tzafrir Cohen tzaf...@cohens.org.il

 On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote:
  יש כל -כך הרבה שקשה לכתוב את הכל :)

 אבל זו אינה תוכנית עבודה מפורטת

 הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
 מסדר הגודל של המשימות בקיץ הקוד של גוגגל.

 חלק מהמשימות דורשות דיון על הדרך הטובה ביותר למימוש, לכן אני מקווה שיהיו
מספיק אנשים לדיון רציני.


  סריקה בעברית כולל ניקוד

 יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
 עובד עליה.

 נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.

 אני חושב שיותר קל להשתמש באחת מתוכניות ה OCR הקיימות
ראיתי כמה מילונים ל teserect למישהו בא לבדוק את התוכנה?


  זיהוי עברי של כתב יד
 
  הרחבת המילונים של למחלקות שונות של עברית
  הוספת מנתח דיקדוק ותיקון שגיאות
  נקדן ובדיקת איות מבוססת ניקוד
  מסכם טקסט
 
  תקן לשימושיות דו-כווניות בקוד פתוח
  מימושו בפרוייקטים שונים
 
  מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)

 תזכורת למה שכבר קיים:
 http://culmus.sourceforge.net/dictionary/

 גם wordnet כבר קיים:)

  מילון מילים נרדפות
  תרגום אוטומטי
  חיפוש עברי תוך שימוש בשורשים ומילים נרדפות
 
  שיפור התמיכה בספרים אלקטרונים בעברית
  תשתית לעבודה על ספרים (www.pgdp.net)

 האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
 הרבה בעיות תאורטיות רציניות.

 כן, זה יחסית פשוט, צריך תמיכב בכיווניות ב PHP


 
  זיהוי דיבור בעברית
 
  לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
  ועיקר העבודה היא התאמתם לעברית.
  העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות
 לפחות
  חלקית תחת ה GPL.
 
  לינקים מעניינים:
  http://www.cs.technion.ac.il/~barhaim/MorphTagger/

 נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.

 לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
 היא מסתמכת על תוכנה כמעט חופשית אחרת:
 http://www.speech.sri.com/projects/srilm/
 כמעט חופשית מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.

 נכון אבל האלגורתמים שם, צריך לנקות ואולי להוסיף לHSPELL כהרחבה


  http://www.mila.cs.technion.ac.il/mila/eng/index.html

 יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
 אני קורא:
 License

 For non-commercial research purposes, this tool is licensed under the
 GNU General Public License (GPL). Any publications resulting from the
 use of this tool should refer to it as The MILA Hebrew Tokenization
 Tool and cite:

 Alon Itai and Shuly Wintner. Language Resources for Hebrew. Language
 Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]

 To gain password access to this tool for non-commercial purposes, please
 register. For commercial usage, please contact MILA to inquire about
 terms.

 למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
 מגבלות הפצה מוזרות כאלה?


 אני גם מאד אשמח עם מישהו יעשה את זה:)


 
 https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html

 קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?

  זה מעניין כתשתית לפרוייקטים אחרים.


  http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English

 קורפוס של כתבות מהארץ שבו אפשר להשתמש

  כן, עם תוכנה שמזהה חלקי דיבור במשפט.
וכן היא תחת GPL.

 http://roidayan.com/wordpress/?p=26

 מהם הנתונים ששם?

 ???

 
  ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה,  שימוש ב VMACHINE
 לספרי
  תורה ועוד...

 --
 Tzafrir Cohen | tzaf...@jabber.org | VIM is
 http://tzafrir.org.il || a Mutt's
 tzaf...@cohens.org.il ||  best
 tzaf...@debian.org|| friend
 ___
 Discussions mailing list
 Discussions@hamakor.org.il
 http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

שני כרטיסי כניסה חינם לוורדקמפ 2011 לחברי העמותה

2011-09-11 חוט Lior Kaplan
היי,

קיבלנו שני כרטיסי כניסה לוורדקמפ 2011 (שמתקיים מחר) עבור חברי/ידידי העמותה.
http://wordcampjerusalem.com

הכרטיסים יחולקו בשיטת כל הקודם זוכה (על פי תגובה ברשימת התפוצה).

קפלן
___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions