頭頁 重學 Perl 處理台語文資訊
文章
取消

重學 Perl 處理台語文資訊

網站開發語言內底,perl 佇 2004 年跤兜,上蓋興旺,尾手退流行,漸漸予 python / php / ruby / Ajax 拚過矣。當年我嘛捌利用 perl 寫過一个小小个個人網站,予儂查揣漢字台語音,總是,後來著無閣耍矣。

最近閣將 perl 抾轉來餾,發現伊對 Unicode 个支援愈來愈十全[tsa̍p-tsn̂g],哪研究文件哪用伊个新功能,寫一寡小程式來處理台語文資訊,幫我校對我做个白話字編碼表,有掠著一寡錯誤,袂䆀。

除了 Unicode 編碼,也試看舊底中文碼的轉換。拄才,將 GB2312 字串 轉過去 Big5,想講毋知簡體中文「总干事 吃肉干 干你事」,咁會凍正確轉做正體中文「總幹事 吃肉乾 干你事」?

Firefox 頂面个「同文堂」外掛,會曉共伊轉做「總幹事 吃肉乾 幹你事」,算是真巧矣。

若用 perl 的 Encode::HanConvert 模組个 gb_to_big5 函式轉出來是「總幹事 吃肉幹 幹你事」,若是先將 gb decode(解碼) 成 perl Unicode 閣轉來 big5 著變成「總榦事 喫肉榦 榦妳事」。「干」變「榦」、「吃」變「喫」,上奇妙个是徛人爿个「你」煞變做女字爿个「妳」。

我看,台灣中文佮中國中文,比美國英文佮英國英文个差別,大濟咧喔!

本文章以 CC BY-NC-SA 4.0 授權

Unicode 6.0 新收个台語漢字

台語地名「水碓仔」[Tsuí-tuì-á]

Comments powered by Disqus.