2011/9/9 Tzafrir Cohen tzaf...@cohens.org.il
On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote:
יש כל -כך הרבה שקשה לכתוב את הכל :)
אבל זו אינה תוכנית עבודה מפורטת
הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
מסדר הגודל של המשימות בקיץ הקוד של גוגגל.
חלק מהמשימות דורשות דיון על הדרך הטובה ביותר למימוש, לכן אני מקווה שיהיו
מספיק אנשים לדיון רציני.
סריקה בעברית כולל ניקוד
יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
עובד עליה.
נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.
אני חושב שיותר קל להשתמש באחת מתוכניות ה OCR הקיימות
ראיתי כמה מילונים ל teserect למישהו בא לבדוק את התוכנה?
זיהוי עברי של כתב יד
הרחבת המילונים של למחלקות שונות של עברית
הוספת מנתח דיקדוק ותיקון שגיאות
נקדן ובדיקת איות מבוססת ניקוד
מסכם טקסט
תקן לשימושיות דו-כווניות בקוד פתוח
מימושו בפרוייקטים שונים
מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)
תזכורת למה שכבר קיים:
http://culmus.sourceforge.net/dictionary/
גם wordnet כבר קיים:)
מילון מילים נרדפות
תרגום אוטומטי
חיפוש עברי תוך שימוש בשורשים ומילים נרדפות
שיפור התמיכה בספרים אלקטרונים בעברית
תשתית לעבודה על ספרים (www.pgdp.net)
האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
הרבה בעיות תאורטיות רציניות.
כן, זה יחסית פשוט, צריך תמיכב בכיווניות ב PHP
זיהוי דיבור בעברית
לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
ועיקר העבודה היא התאמתם לעברית.
העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות
לפחות
חלקית תחת ה GPL.
לינקים מעניינים:
http://www.cs.technion.ac.il/~barhaim/MorphTagger/
נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.
לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
היא מסתמכת על תוכנה כמעט חופשית אחרת:
http://www.speech.sri.com/projects/srilm/
כמעט חופשית מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.
נכון אבל האלגורתמים שם, צריך לנקות ואולי להוסיף לHSPELL כהרחבה
http://www.mila.cs.technion.ac.il/mila/eng/index.html
יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
אני קורא:
License
For non-commercial research purposes, this tool is licensed under the
GNU General Public License (GPL). Any publications resulting from the
use of this tool should refer to it as The MILA Hebrew Tokenization
Tool and cite:
Alon Itai and Shuly Wintner. Language Resources for Hebrew. Language
Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]
To gain password access to this tool for non-commercial purposes, please
register. For commercial usage, please contact MILA to inquire about
terms.
למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
מגבלות הפצה מוזרות כאלה?
אני גם מאד אשמח עם מישהו יעשה את זה:)
https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html
קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?
זה מעניין כתשתית לפרוייקטים אחרים.
http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English
קורפוס של כתבות מהארץ שבו אפשר להשתמש
כן, עם תוכנה שמזהה חלקי דיבור במשפט.
וכן היא תחת GPL.
http://roidayan.com/wordpress/?p=26
מהם הנתונים ששם?
???
ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה, שימוש ב VMACHINE
לספרי
תורה ועוד...
--
Tzafrir Cohen | tzaf...@jabber.org | VIM is
http://tzafrir.org.il || a Mutt's
tzaf...@cohens.org.il || best
tzaf...@debian.org|| friend
___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
___
Discussions mailing list
Discussions@hamakor.org.il
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions