Phân tích từ Việt
Chương trình này được dùng với một danh sách các từ tiếng Việt để phân tích các văn bản tiếng Việt. Chương trình này tìm và đánh dấu các từ đa âm tiết, thống kê số lần mỗi từ được dùng trong một văn bản và những từ có thể viết sai chính tả. Cách sử dụng:
- Khởi động chương trình với findwords.bat
- Chọn danh sách các từ tiếng Việt (Word list) dùng để đối chiếu. Chương trình sẽ bận một chút để đọc toàn bộ file vào bộ nhớ.
- Chọn văn bản cần xử lí (Source file)
- Chọn file để chứa văn bản sau khi xử lí (Target file)
- Chọn file để chứa các dữ liệu thống kê (Statistics)
- Ấn "Run"
Văn bản được tạo ra (Target file) khác với văn bản ban đầu ở chỗ: các từ đa âm tiết bây giờ được nối bằng dấu _ (Underscore).
Các số liệu thống kê có 2 phần. Phần đầu là số lần mỗi từ trong danh sách các từ bạn sử dụng ban đầu (Word list) được dùng trong văn bản vừa xử lí. (Những từ không được sử dụng thì không được nhắc đến.) Phần 2 là danh sách các từ trong văn bản nhưng không có trong danh sách đối chiếu. Những từ này có thể không phải tiếng Việt, hay viết sai chính tả, hoặc danh sách các từ mà bạn dùng không được đầy đủ.
Sau khi nạp danh sách từ tiếng Việt bạn có thể dùng chương trình để xử lí nhiều văn bản khác nhau, chỉ cần chọn file khác chứ không cần chọn lại word list, tất nhiên trừ trường hợp bạn bổ sung từ mới vào danh sách.
Chú ý rằng cả danh sách từ và văn bản bạn muốn xử lí đều phải ở dạng Unicode UTF-8.