date:20110911

Re: Fwd: מזכיר הממשלה מזמין את הציבור להשתתף במיזם לשימור וקידום השפה העברית

2011-09-11 חוט E L

2011/9/9 Tzafrir Cohen tzaf...@cohens.org.il

On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote:
יש כל -כך הרבה שקשה לכתוב את הכל :)

אבל זו אינה תוכנית עבודה מפורטת

הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
מסדר הגודל של המשימות בקיץ הקוד של גוגגל.

חלק מהמשימות דורשות דיון על הדרך הטובה ביותר למימוש, לכן אני מקווה שיהיו
מספיק אנשים לדיון רציני.

סריקה בעברית כולל ניקוד

יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
עובד עליה.

נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.

אני חושב שיותר קל להשתמש באחת מתוכניות ה OCR הקיימות
ראיתי כמה מילונים ל teserect למישהו בא לבדוק את התוכנה?

זיהוי עברי של כתב יד

הרחבת המילונים של למחלקות שונות של עברית
הוספת מנתח דיקדוק ותיקון שגיאות
נקדן ובדיקת איות מבוססת ניקוד
מסכם טקסט

תקן לשימושיות דו-כווניות בקוד פתוח
מימושו בפרוייקטים שונים

מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)

תזכורת למה שכבר קיים:
http://culmus.sourceforge.net/dictionary/

גם wordnet כבר קיים:)

מילון מילים נרדפות
תרגום אוטומטי
חיפוש עברי תוך שימוש בשורשים ומילים נרדפות

שיפור התמיכה בספרים אלקטרונים בעברית
תשתית לעבודה על ספרים (www.pgdp.net)

האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
הרבה בעיות תאורטיות רציניות.

כן, זה יחסית פשוט, צריך תמיכב בכיווניות ב PHP

זיהוי דיבור בעברית

לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
ועיקר העבודה היא התאמתם לעברית.
העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות
לפחות
חלקית תחת ה GPL.

לינקים מעניינים:
http://www.cs.technion.ac.il/~barhaim/MorphTagger/

נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.

לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
היא מסתמכת על תוכנה כמעט חופשית אחרת:
http://www.speech.sri.com/projects/srilm/
כמעט חופשית מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.

נכון אבל האלגורתמים שם, צריך לנקות ואולי להוסיף לHSPELL כהרחבה

http://www.mila.cs.technion.ac.il/mila/eng/index.html

יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
אני קורא:
License

For non-commercial research purposes, this tool is licensed under the
GNU General Public License (GPL). Any publications resulting from the
use of this tool should refer to it as The MILA Hebrew Tokenization
Tool and cite:

Alon Itai and Shuly Wintner. Language Resources for Hebrew. Language
Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]

To gain password access to this tool for non-commercial purposes, please
register. For commercial usage, please contact MILA to inquire about
terms.

למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
מגבלות הפצה מוזרות כאלה?

אני גם מאד אשמח עם מישהו יעשה את זה:)

https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html

קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?

זה מעניין כתשתית לפרוייקטים אחרים.

http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English

קורפוס של כתבות מהארץ שבו אפשר להשתמש

כן, עם תוכנה שמזהה חלקי דיבור במשפט.
וכן היא תחת GPL.

http://roidayan.com/wordpress/?p=26

מהם הנתונים ששם?

???

ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה, שימוש ב VMACHINE
לספרי
תורה ועוד...

--
Tzafrir Cohen | tzaf...@jabber.org | VIM is
http://tzafrir.org.il || a Mutt's
tzaf...@cohens.org.il || best
tzaf...@debian.org|| friend
___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

שני כרטיסי כניסה חינם לוורדקמפ 2011 לחברי העמותה

2011-09-11 חוט Lior Kaplan

היי,

קיבלנו שני כרטיסי כניסה לוורדקמפ 2011 (שמתקיים מחר) עבור חברי/ידידי העמותה.
http://wordcampjerusalem.com

הכרטיסים יחולקו בשיטת כל הקודם זוכה (על פי תגובה ברשימת התפוצה).

קפלן
___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

Re: Fwd: מזכיר הממשלה מזמין את הציבור להשתתף במיזם לשימור וקידום השפה העברית

שני כרטיסי כניסה חינם לוורדקמפ 2011 לחברי העמותה

2 matches

Site Navigation

Mail list logo

Footer information