タイ語の分かち書き

趣味でタイ語を習っているのですが、タイ語の特徴として文字の区切りがないことが1つある。
学習するに当たって、区切りがないため辞書を引くにも単語がどこからどこまでなのかよくわからないことが多々あるわけで。


タイ語分かち書きソフトでも作ろうかな〜〜〜なんてずっと思ってたんですが、作業量が重いので妄想で終わらせてたわけで。


まぁそんなとき、たまたま分かち書きのことを調べてたら、タイ語分かち書きソフトを見つけた。


swath = Smart Word Analysis for THai
ftp://linux.thai.net/pub/thailinux/software/swath


やっぱ分かち書きはコンピュータで言語扱いには必要ですね。
先人がやってくれています。車輪の再発明になるところでした。

ってことで、CentOS5にインストール

# wget ftp://linux.thai.net/pub/thailinux/software/swath/swath-0.3.4.tar.gz
# tar xvfz swath-0.3.4.tar.gz
# cd swath
# ./configure
# make
# make install

特に問題なくインストールできた。
タイ語の例文がないのでネットで適当に拾ってきて、入力してみる。

AISのサイトから引っ張ってきた。

$ swath < test.th
แล้วการใช้งานมือถือในทุกๆ| |วันของลูกค้าเอไอเอส| |จะอุ่นยิ่งขึ้นกว่าเดิม|
แทน| |คำขอบคุณที่อยู่เคียงข้างกัน| |เอไอเอส| |ให้คุณสะสมแต้มจากการใช้งานโทรศัพท์มือถือ*| |เมื่อสมัครเข้าร่วมโครงการ| |โดยุทุก| |25| |บาท| |รับ| |1| |แต้ม| |สะสมเพื่อ| |“แลก”| |ของรางวัลมากมาย| |และ| |“ลุ้น”| |ของรางวัลใหญ่ตลอดปีี|
แต้มพิเศษ| |ขอบคุณลูกค้าเอไอเอสที่รักกันมานาน|
สมัครภายใน| |31| |มี|.|ค|.| |52| |รับโบนัสเพิ่มพิเศษสูงสุด| |100| |คะแนน|

あら?分かち書きされてない・・・??
スペースのところで区切れているだけ・・・。

たぶん文字コード。swathがUTF8に対応してなさげ。

iconvでデータをtis620にエンコードして、swathにつっこみ、再度UTF8に戻してみる。

$ iconv -f utf8 -t tis-620 test.th | swath | iconv -f tis-620 -t utf8
iconv: 位置 602 で不正な入力シーケンスがありました
แล้ว|การ|ใช้|งาน|มือ|ถือ|ใน|ทุกๆ| |วัน|ของ|ลูกค้า|เอ|ไอ|เอส| |จะ|อุ่น|ยิ่ง|ขึ้น|กว่า|เดิม|
แทน| |คำ|ขอบคุณ|ที่อยู่|เคียงข้าง|กัน| |เอ|ไอ|เอส| |ให้|คุณ|สะสม|แต้ม|จาก|การ|ใช้|งาน|โทรศัพท์|มือ|ถือ|*| |เมื่อ|สมัคร|เข้า|ร่วม|โครงการ| |โดยุ|ทุก| |25| |บาท| |รับ| |1| |แต้ม| |สะสม|เพื่อ| |

iconvで一部失敗してるぽいけど、分かち書きされたみたい。
この分かち書き結果から、単語を引っ張ったらある程度の翻訳ツールみたいのができそう・・・。

でもタイ語って品詞分けが難しんですよね・・・。次は構造解析か?



つづく・・・かも。