Re: [HanoiLUG] Kho từ (chính tả) tiếng Việt

2012-02-06 Hội thoại Hoàng Minh Thắng

On 07/02/2012 00:09, Huan Truong wrote:

Cảm ơn các bác em đã giúp đỡ và chỉ đến các nguồn này.
Chẳng qua là em muốn làm một bộ gõ tiếng Việt cho Android ấy mà. Để
làm việc đó tốt thì mình kho^ng chi cần một cái kho từ vựng tốt để
chữa các lỗi thông thường, và các n-grams thường gặp. Cho ví dụ các
n-grams mà không phải là một "từ" là "ngây thơ" -->  "trong trắng,"
"Hoàng" -->  "Thuỳ Linh,"... Sẽ rất hay nếu mình có thể thu thập được
những n-grams như thế để dự đoán từ người dùng sẽ gõ. Như vậy có lẽ để
thu thập n-grams và các từ này thì em sẽ phải tự làm lấy từ một cái
corpus vậy.
Có lẽ nếu em làm được vào một lúc nào đó việc khi có thời gian thì em
sẽ công bố cho tất cả mọi người cùng hưởng...


Có thể tham khảo thêm file AmBigs cho tiếng Việt (sửa lỗi sau khi OCR) 
của tesseract

Ngoài ra, có lẽ bạn sẽ cần chuẩn hoá vị trí dấu của từ làm đầu vào cho csdl.
Happy hacking!
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Kho từ (chính tả) tiếng Việt

2012-02-06 Hội thoại Minh Lê
Bộ n-gram như thế em nghĩ là không có sẵn đâu, anh có thể lấy trên mạng về
rồi dùng vnTokenizer để tách từ.

Phân tích ngữ pháp thì có lẽ không khả thi lắm vì em dùng thử POS tagger
tốt nhất hiện giờ là vnTagger thì độ chính xác vẫn kém và rất chậm.


2012/2/7 Huan Truong 

> Cảm ơn các bác em đã giúp đỡ và chỉ đến các nguồn này.
> Chẳng qua là em muốn làm một bộ gõ tiếng Việt cho Android ấy mà. Để
> làm việc đó tốt thì mình kho^ng chi cần một cái kho từ vựng tốt để
> chữa các lỗi thông thường, và các n-grams thường gặp. Cho ví dụ các
> n-grams mà không phải là một "từ" là "ngây thơ" --> "trong trắng,"
> "Hoàng" --> "Thuỳ Linh,"... Sẽ rất hay nếu mình có thể thu thập được
> những n-grams như thế để dự đoán từ người dùng sẽ gõ. Như vậy có lẽ để
> thu thập n-grams và các từ này thì em sẽ phải tự làm lấy từ một cái
> corpus vậy.
> Có lẽ nếu em làm được vào một lúc nào đó việc khi có thời gian thì em
> sẽ công bố cho tất cả mọi người cùng hưởng...
>
>
> --
> Huan Truong | tnhh.net | 6609889066 | @huant
> ___
> POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
> ___
> HanoiLUG mailing lists: http://lists.hanoilug.org/
> HanoiLUG wiki: http://wiki.hanoilug.org/
> HanoiLUG blog: http://blog.hanoilug.org/
>



-- 
Lê Ngọc Minh
Hanoi University of Science and Technology, Computer Science - Class of 2012
Skype: ngocminh_oss | Yahoo: ngocminh_oss | Tel: +84 988 456 037
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Thứ tự backtrace khi kernel panic

2012-02-06 Hội thoại Truong Anh. Tuan

- Original Message -
> From: "Phương Võ" 
> To: "Hanoi Linux Users Group" 
> Sent: Tuesday, February 7, 2012 11:23:29 AM
> Subject: Re: [HanoiLUG]   Thứ tự backtrace khi kernel panic
> 
> Em đã chạy memtest86+ 11 tiếng và không phát hiện thấy vấn đề gì, kiếm
> tra trong dmesg thấy 1 vài lần có hardware error: machine check events
> logged nhưng check mcelog lại không thấy gì (daemon đã chạy), hiện tại
> đang bí chưa nghĩ ra cách giải quyết :) Có khi phải áp dụng cách giống
> windows là cài lại :)

Thử dùng trên LiveCD, nếu không bị nữa thì thử cài lên 1 partition khác
theo dõi tiếp xem sao.

> Distro em đang dùng là fedora 16, nhân 3.2.3, laptop là dell latitude
> U5420, CPU Intel i5 2410M + 6 gb ram, không dùng module đóng nào.

Em dùng bản 64 hay 32-bit?

Kind regards, 
Tuan 
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Thứ tự backtrace khi kernel panic

2012-02-06 Hội thoại Phương Võ
2012/2/7 Thanh Nguyen :
> Khi có kernel oops hay panic thì sẽ hiện ra stack backtrace, đoạn code
> gây lỗi, số thứ tự của CPU đã thực hiện đoạn code đó (lưu ý là CPU 0
> không đồng nghĩa là CPU đầu tiên nhé), registers và một số thông tin
> khác.

Vâng, em cảm ơn!

Vấn đề của em hiện giờ là bị kernel panic khá nhiều, oops cũng nhiều
không kém, nhưng mỗi lần panic hay oops thì backtrace lại hiện một hàm
khác nhau, ví dụ vài lần:

handle_remove ->... -> devtmpfsd -> ... -> handler_remove -> ..->
bdev_evict_inode
RIP: end_writeback

.. -> create_write_pipe -> new_inode_pseudo -> alloc_inode
RIP: kmem_cache_alloc

sys_sento -> page_fault -> do_page_fault -> bad_area -> kmsg_dump ->
fput -> sock_close
RIP: sock_release

Em đã chạy memtest86+ 11 tiếng và không phát hiện thấy vấn đề gì, kiếm
tra trong dmesg thấy 1 vài lần có hardware error: machine check events
logged nhưng check mcelog lại không thấy gì (daemon đã chạy), hiện tại
đang bí chưa nghĩ ra cách giải quyết :) Có khi phải áp dụng cách giống
windows là cài lại :)

Distro em đang dùng là fedora 16, nhân 3.2.3, laptop là dell latitude
U5420, CPU Intel i5 2410M + 6 gb ram, không dùng module đóng nào.
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Thứ tự backtrace khi kernel panic

2012-02-06 Hội thoại Thanh Nguyen
2012/2/7 Truong Anh. Tuan :
>
> - Original Message -
>> From: "Phương Võ" 
>> Cho em hỏi là khi kernel panic sẽ hiện ra stack backtrace của các
>> CPU,
>> vậy khi đó backtrace cuối cùng được hiển thị là của [1] CPU đã thực
>> hiện đoạn code gây lỗi hay [2] CPU có số thứ tự cao nhất ạ?
>
> Anh nhớ là trong kernel panic message hiện luôn số thứ tự CPU mà (VD
> CPU 0 là CPU đầu tiên của mình).

Khi có kernel oops hay panic thì sẽ hiện ra stack backtrace, đoạn code
gây lỗi, số thứ tự của CPU đã thực hiện đoạn code đó (lưu ý là CPU 0
không đồng nghĩa là CPU đầu tiên nhé), registers và một số thông tin
khác.

Happy Hacking!

--rd
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Thứ tự backtrace khi kernel panic

2012-02-06 Hội thoại Truong Anh. Tuan

- Original Message -
> From: "Phương Võ" 
> To: "Hanoi Linux Users Group" 
> Sent: Monday, February 6, 2012 6:50:57 PM
> Subject: [HanoiLUG] Thứ tự backtrace khi kernel panic
> 
> Cho em hỏi là khi kernel panic sẽ hiện ra stack backtrace của các
> CPU,
> vậy khi đó backtrace cuối cùng được hiển thị là của [1] CPU đã thực
> hiện đoạn code gây lỗi hay [2] CPU có số thứ tự cao nhất ạ?

Anh nhớ là trong kernel panic message hiện luôn số thứ tự CPU mà (VD
CPU 0 là CPU đầu tiên của mình).

Phương thử google "kernel panic backtrace" chắc sẽ khá nhiều thông
tin hữu ích.

Kind regards, 
Tuan 
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Kho từ (chính tả) tiếng Việt

2012-02-06 Hội thoại Hai Nam
Bộ gõ hiện tại cũng có kho từ, nhưng chỉ đơn giản là các từ kép. Vậy
cách đơn giản có phải là liên hệ tác giả bổ sung từ, hay bác có những
chức năng khác?

Còn nếu muốn đoán từ tốt thông qua n-gram, hình như kho dữ liệu như
vậy không có sẵn (n-gram và xác suất xuất hiện). Đành phải đi thu thập
dữ liệu thôi. Nguồn có thể là các trang báo điện tử, lấy về thống kê.

Một hướng nữa có thể làm song song, nhưng khó hơn, là phân tích câu để
đoán xem từ sắp/đang gõ thuộc từ loại gì để có đề xuất thích hợp.

--
Nguyễn Hải Nam

Thông tin công nghệ http://www.thongtincongnghe.com/



2012/2/6 Huan Truong :
> Cảm ơn các bác em đã giúp đỡ và chỉ đến các nguồn này.
> Chẳng qua là em muốn làm một bộ gõ tiếng Việt cho Android ấy mà. Để
> làm việc đó tốt thì mình kho^ng chi cần một cái kho từ vựng tốt để
> chữa các lỗi thông thường, và các n-grams thường gặp. Cho ví dụ các
> n-grams mà không phải là một "từ" là "ngây thơ" --> "trong trắng,"
> "Hoàng" --> "Thuỳ Linh,"... Sẽ rất hay nếu mình có thể thu thập được
> những n-grams như thế để dự đoán từ người dùng sẽ gõ. Như vậy có lẽ để
> thu thập n-grams và các từ này thì em sẽ phải tự làm lấy từ một cái
> corpus vậy.
> Có lẽ nếu em làm được vào một lúc nào đó việc khi có thời gian thì em
> sẽ công bố cho tất cả mọi người cùng hưởng...
>
>
> --
> Huan Truong | tnhh.net | 6609889066 | @huant
> ___
> POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
> ___
> HanoiLUG mailing lists: http://lists.hanoilug.org/
> HanoiLUG wiki: http://wiki.hanoilug.org/
> HanoiLUG blog: http://blog.hanoilug.org/
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Kho từ (chính tả) tiếng Việt

2012-02-06 Hội thoại Huan Truong
Cảm ơn các bác em đã giúp đỡ và chỉ đến các nguồn này.
Chẳng qua là em muốn làm một bộ gõ tiếng Việt cho Android ấy mà. Để
làm việc đó tốt thì mình kho^ng chi cần một cái kho từ vựng tốt để
chữa các lỗi thông thường, và các n-grams thường gặp. Cho ví dụ các
n-grams mà không phải là một "từ" là "ngây thơ" --> "trong trắng,"
"Hoàng" --> "Thuỳ Linh,"... Sẽ rất hay nếu mình có thể thu thập được
những n-grams như thế để dự đoán từ người dùng sẽ gõ. Như vậy có lẽ để
thu thập n-grams và các từ này thì em sẽ phải tự làm lấy từ một cái
corpus vậy.
Có lẽ nếu em làm được vào một lúc nào đó việc khi có thời gian thì em
sẽ công bố cho tất cả mọi người cùng hưởng...


-- 
Huan Truong | tnhh.net | 6609889066 | @huant
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/

Re: [HanoiLUG] Thứ tự backtrace khi kernel panic

2012-02-06 Hội thoại Nguyễn Vũ Hưng
2012/2/6 Phương Võ :
> Cho em hỏi là khi kernel panic sẽ hiện ra stack backtrace của các CPU,
> vậy khi đó backtrace cuối cùng được hiển thị là của [1] CPU đã thực
> hiện đoạn code gây lỗi hay [2] CPU có số thứ tự cao nhất ạ?

Phương gửi thiếu [1], [2] rồi

-- 
Best Regards,
Nguyen Hung Vu [aka: NVH] ( in Vietnamese: Nguyễn Vũ Hưng )
vuhung16plus{remove}@gmail.dot.com , YIM: vuhung16 , Skype:
vuhung16plus, twitter: vuhung, MSN: vuhung16.
http://www.facebook.com/nguyenvuhung
http://nguyen-vu-hung.blogspot.com/
___
POST RULES : http://wiki.hanoilug.org/hanoilug:mailing_list_guidelines
___
HanoiLUG mailing lists: http://lists.hanoilug.org/
HanoiLUG wiki: http://wiki.hanoilug.org/
HanoiLUG blog: http://blog.hanoilug.org/