頭頁 寫台語文予機器儂自動唸个一寡鋩角--初步个試驗
文章
取消

寫台語文予機器儂自動唸个一寡鋩角--初步个試驗

2023-10-16 註記:本文紹介个「軟體機器儂」已經廢用,所有个超連結網址也失效矣。即篇留咧做一个歷史見證。

本文

Luî Bêng-Hàn 佮 Morrison Iunn 兩位𠢕儂,寫出一隻軟體機器儂,透過Facebook開放予儂利用,會曉自動共咱寫个台語文讀出聲,儹著是儹!雖然閣會凍ta̍uh-ta̍uh改進,但是已經比市面上一大堆電腦語音服務厲害太濟咧喇。我看一寡肯寫台文个朋友,攏猶閣毋捌使用過即隻機器儂,感覺誠無彩。即兩工我簡單做一寡試驗,佇遮做一个小報告。

以下為著方便,我將「即隻軟體機器儂」簡稱做「童仔[tông-á]」,因為伊著親像共咱服務个書童[su-tông]共款,咱寫台語文,機器儂書童踮身軀邊伺候,隨時會凍讀出聲,予儂客聽,實在不止享福。但是叫「書童」,無夠古錐,換喙叫做童仔。袂輸是迎鬧熱个時,大頭囡仔面个空殼翁仔,儂愛nǹg入去內底夯咧ûn街迄款童仔[tông-á]。照講號名愛「生」伊个儂才有權利,我卡僭權[tshiàm-kuân],佇遮共伊个「父母」會失禮。

童仔會曉讀教會羅馬字、台灣羅馬字,閣有漢字寫个台語文。我到tann攏先試台羅个部份。因為教羅、台羅攏一律標調類,無標實調,亦著是一般所講个,標本調,無標變調。予讀者家治判斷去決定tang時欲變抑毋變。

即種判斷个過程對軟體自動讀台文是極大無比[ki̍k tuā bû-pí]个挑戰。其中个道理,簡單講,咱對台語本調佮變調,佇一句話內底,到底是按怎變來變去,干焦有把握講,若是有變,是變做啥乜調。但是這著愛先決定講,到底是毋是愛變?即个是毋是愛變个規則,雖然有蓋濟台語語言學家寫出規則,總是,迄種規則攏猶閣傷抽象,無夠具體明確,會凍做根據來寫出電腦軟體所需要个演算法,通去自動分析千變萬化个台語話句,會凍一音節一音節去斷定[tuàn-tīng]講即个讀本調,迄个讀變調。

所以童仔是按怎做个?引用 Morrison Iunn教授个話:「簡單講,我會先去臆詞類,了後去臆伊愛讀本調抑是變調,有囥一寡rules佇內底。聲音應該會當處理閣較好,總是我毋是語音方面專長,所以阮是1个音節1个音節錄音,了後根據變調演算法判斷欲讀啥物聲調,才real time kā聲音鬥起來送去client。」詳細請參考伊佮儂合寫个一篇論文

迄篇論文我且共囥咧無讀,想講,先來直接做試驗,寫一寡話句看童仔按怎唸,我才來揣斷[tshuí-tuàn]伊背後个原理,紲落去才看伊个論文來印證我所想个。總是,閣來無欲講傷濟理論,欲共逐家報一寡我試出來个,寫台羅文,使用連字號佮其他標點个撇步,通予童仔會凍共伊唸出卡正確个本變調。

先講基本規則:

一、若是一个確定个詞,像 pâng-king; hué-tshia,寫个時一定愛用單連字號 - 將兩个音節連起來。按呢童仔著知影連字號頭前愛變調。三音節詞、四音節詞等等,只要干焦尾字讀本調,按呢攏共連連起來著是。

二、若是輕聲,親像 sin--ê; kū--ê; peh--khí-lâi; pê--ji̍p-lâi,寫个時愛用雙連字號 -- 表示頭前字唸本調,後壁字唸輕聲。連紲兩字攏輕聲个時,第一个輕聲頭前用雙連字號,第二个輕聲字頭前用單連字號著好。童仔干焦會曉固定kē調輕聲,袂曉隨前變調輕聲。

三、若是其他个標點,親像「Guá sī lāu-su, i sī ha̍k-sing. 」「Lí sī lāu-su, ia̍h sī ha̍k-sing?」。拄著一个音節,伊後壁隨接逗點、句點、問號等等个標點,即个音節童仔著攏唸本調。當然,頂面輕聲个規則優先。

閣來家婆補充一下,英文亦好,台語羅馬字亦好,標點佮頭前个字母中間勿làng格,但是標點後面攏愛làng一个空格(半型个space)。中文標點因為佮一般漢字共款攏是全型字,所以中文標點後壁無咧làng格,但是羅馬字著一定愛。另外,有儂講若是英文拄著句點後壁愛làng兩个空格,彼是古早扑字機時代个舊慣,電腦排版時代,軟體真巧,會自動看款調整,無需要咱儂去ke了工。

以上三點原則佮一般台羅文个正書法共款。紲落去,來講針對童仔个需要,按怎做一寡調整个撇步。

四、若是詞佮詞中間愛有个空格,彼著卡麻煩。頭前提起,童仔會先臆一个詞是啥乜詞類,才決定欲變調無。迄種判斷,有時會tîng-tânn。可比講,空格頭前迄字該變調,伊煞共汝唸本調,這欲處理,上簡單是直接將迄个空格改做單連字號,予前後詞連連做一伙,伊著會唸變調矣。總是,明明毋是共一个詞,咱煞共怹兩个詞連寫做伙,咁毋是真無合理。針對童仔即个能力不足,一个詞咱若希望伊全部變調,會使佇上尾音節後壁加一个單連字號,才閣扑空格,紲落去才閣扑下一个詞。

舉例卡明,「厝一直起 Tshù it-ti̍t khí」,伊唸做 Tshù# it-ti̍t# khí# (井號頭前个音節,表示童仔唸本調),按呢毋著,「直」愛唸變調才著。為著欲予「直」變調,咱會使寫做 Tshù it-ti̍t- khí. 注意 ti̍t- 佮 khí 中央有 làng格,這是因為副詞「一直」無應該佮「起」連寫做伙。

五、但是,按呢「直」正確矣,「厝」閣毋著去矣,煞唸變調。即種佇空格頭前个音節,應該唸本調,伊煞變調个情形,著加扑一个下底線 _ 加佇迄个音節後壁,著會使逼伊一定愛唸本調,像按呢 Tshù_ it-ti̍t- khí. 注意迄个下底線 _ 後壁閣有一个空格,予主詞 tshù 佮副詞 it-ti̍t 做合理个拆開。

按呢處理過,著會使予即个閣咧發育个童仔,唸出一篇台文每一音節本、變調差不多完全正確个台羅文,雖然會加出一寡礙目个記號。

閣舉一組心適个例。咱欲講台灣个大學一直起,愛寫 Tâi-uân_ tāi-ha̍k_ it-ti̍t- khí. 童仔著知影通唸講 Tâi-uân# tāi-ha̍k# it-ti̍t khí#. 若是欲講台北公館迄間台灣大學一直起,愛寫 Tâi-uân-tāi-ha̍k_ it-ti̍t- khí. 按呢伊著知通唸做 Tâi-uân-tāi-ha̍k# it-ti̍t khí#.

即馬將以上舉个例全部列佇下跤:

pâng-king; hué-tshia.

sin--ê; kū--ê.

peh--khí-lâi.

pê--ji̍p-lâi.

Guá sī lāu-su, i sī ha̍k-sing.

Lí sī lāu-su; ia̍h sī ha̍k-sing?

Tshù_ it-ti̍t- khí.

Tâi-uân_ tāi-ha̍k_ it-ti̍t- khí.

Tâi-uân-tāi-ha̍k_ it-ti̍t- khí.

請聽童仔唸汝聽

從中,有真濟口八聲(收 -p/-t/-k 韻尾个第八聲)个字,出現佇變調抑是輕聲,照講伊个變調愛變kē調。但是童仔个設計,所根據个是卡通俗个台語變調理論--認為第八聲佮第四聲互變,所以是直接將第四聲本調个呼音(中調)提來當做第八聲个變調使用。按呢童仔唸出來,佇遮个所在,聲調著無夠kē。這愛蓋斟酌聽,才聽會出來。另外,有一寡個別个字,錄音抑是存檔處理了走精去个,著無閣提起。

本底想欲簡單寫,無疑寫一堆,真歹勢。若有毋著,才拜託雷、楊兩位se̋n-sé,抑是列位se̋n-pái共我牽教,感恩。總是,向望我即篇,會凍鼓舞閣卡濟友志來利用童仔。我咧想,濟儂使用,濟儂回響建議,童仔个父母才卡有動力,繼續來共童仔tshiânn-tî予伊大漢。怹兩儂閣有其他先進,為咱台灣語文資訊化濟濟種種个tio̍h-buâ佮貢獻,佇遮欲共怹讚嘆致敬。


面冊網誌留言

潘科元:
台語機器儂个網址,猶未試過个,緊來sńg!
http://apps.facebook.com/ke-khi-lang/tau-sann-kang.php?ref=share&count=0
好聽,但是小可會跳針(聲調本變調有時無準),只要照我个撇步去寫,著會大大改善。安呢嘛會凍順紲訓練家治對本變調个音感,一兼二顧。

Morrison Iûnn:
會讀台羅全然是Luî Bêng-Hàn ê功勞,這个系統做出來ê時,台羅猶未出現,是 Bêng-Hàn寫轉換ê家私,數字、調符攏會當食。

Supahmasike Leaau:
Daiqivunw gorh giannrib zidle sinf’e kamzamv a 🙂
Gamsiaf lngwi senbaiz e hucuds!

Lûi Bêng-Hàn:
góa kám-kak siōng tōa ê būn-tê tō sī server ti̍t-ti̍t sí--khì. Èng-kai lâi kā i poaⁿ-chhù.

Morrison Iûnn:
Gún thâu-ke hia ê si̍t-giām-sek sī kiâⁿ Bioinfo ê, in su-iàu tāi-liōng ê ūn-soàn, só͘-í siaⁿ-im Server chí-hó khǹg tī khah kū ê tiān-náu.
Goá hiòng ha̍k-hāu sin-chhéng ê kè-e̍k í-keng khak-tēng thong-kè, choè-kūn ē boé sin ê ki-khì, hi-bōng kàu-sî ē-tàng kái-koat chit ê būn-toê.

Morrison Iûnn:
Ji̍p-siaⁿ ê piàn-tiāu, khak-si̍t sī iōng khah kán-tan ê hong-hoat. Goá khoàⁿ Kang Éng-chìn chò chit pō͘-hūn, in ji̍p-siaⁿ tō ū lo̍k 3 ê bô kâng koân-tō͘ ê im.
Chit ê pō͘-hūn í-āu ē-tàng khó-lū lâi kái-chìn.

Lûi Bêng-Hàn:
m̄-koh lo̍k-im sī siōng hùi-khì ê 1-pō͘.

潘科元:
除了一音一音分開錄才合成,目前漢語系自動語音咁有做出別種卡先進个技術?

本文章以 CC BY-NC-SA 4.0 授權

Facebook个封閉性

Lexical gap

Comments powered by Disqus.