pakkau台羅拼音到漢字轉換的玩具

原刊於PTT臺灣語言板

小弟算講是閩南語維基ê顧站工,最近hām有志討論講閩南語維基(主要用POJ/TL)
寫ê議題,我著想講敢有會當kā羅馬字轉做漢字ê方法?

因為tse hām輸入法揀字原理相siâng,我最近tshiau著輸入法自動揀字ê方法,
其中一个是Hidden Markov Model。

因為大學Markov鍊仔無學予好,所以著開始重頭學,提教育部ê辭典資料,轉做(TL-
漢字)ê平行語料,然後算出來文字轉移ê頻率,寫做一个Script:pakkau(tuì北溝
號ê),用Python,會當將教育部臺羅拼音轉做漢字。

毋過有無準ê所在:
INPUT: Iâ-soo kóng, Siōng-tè thiànn-thàng sè-kan-lâng
OUTPUT: 耶穌講,上帝疼痛世間人 –> OK

INPUT: “"Tsì-bîng kah Tshun-kiau" sī tsit tiâu kua"
OUTPUT: “志明佮春嬌”是一條歌 –> OK

INPUT: koo iā bô phuānn tsiú ting-ē, tshun-hong tuì-bīn tshue
OUTPUT: 孤也無伴守燈下,春風對面初 –> XX

凡勢kap預測干焦考慮頂一字有關聯,可能語料傷過少。

目前干焦支援教育部羅馬字到教育部漢字。

官話摘要:之前和閩南語維基相關資源的相關的人員討論到閩南語維基百科使用全羅馬字
為主的情況,我想能不能用羅馬字轉為漢字來處理。

因為原理和輸入法常用的隱式馬克夫鍊類似,所以就用這個原理,利用教育部的詞典語料
修改成漢字—教育部台羅的平行語料,算文字轉移機率,寫一個Script,從教育部拼音
轉成漢字

可能因為僅考慮前一字,加上語料不多,所以正確率不是很高。

目前僅支援調符教育部拼音轉教育部建議漢字。

連結:https://kianting.info/wiki/index.php?title=ProgProject:Pakkau