星期日, 九月 16, 2007

使用 gettext 來實做 PHP 多國語系支援(I18N)

要做多國語系支援的網站或程式有很多方式, 常見的是設某種國家的語系檔, 然後檔案內都是變數, 之後程式依照使用者的語系的, 去讀語系檔, 以此來達成多國語系.

而 gettext 是另一種標準的方案, 可以 ls /usr/share/locale/zh_TW/LC_MESSAGES 看看, /usr/share/locale 放著各種語系的翻譯檔(翻譯系統程式, ex: apt.mo, dpkg.mo)(*.mo是編譯過的翻譯檔).

現在來用 php + gettext 實做多國語系的支援吧~

通常多國語系有兩種模式

  1. 每個檔案一個翻譯檔
  2. 所有檔案一個翻譯檔

下面會先做 每個檔案一個翻譯檔 的方法, 最下面才是 所有檔案一個翻譯檔 的方法(基本上都大同小異就是了).

以下 以 Debian Linux 為例(/etc/locale.gen).

前置準備(程式, 設定 /etc/locale.gen)

需要下述程式

  • xgettext - extract gettext strings from source
  • msgfmt - compile message catalog to binary format

然後要設定 vim /etc/locale.gen, 檔案內容如下:(看你的語系要支援哪些, 就要有哪些)

zh_TW BIG5
en_US UTF-8
zh_CN UTF-8
zh_TW UTF-8

/etc/locale.gen 如果有改動, 記得要 sudo locale-gen, 不然不會生效 :)

每個檔案一個翻譯檔 設置法(語系: 英文(en_US), 簡體(zh_CN), 正體(zh_TW))

建立基本架構

PS: 下述建立基本結構, 懶得做可直接下載 gettext_example.tgz, 解壓縮就有基本架構了.

先到要建立多國語系的 Project 目錄下

mkdir -p locale/zh_TW/LC_MESSAGES
mkdir -p locale/zh_CN/LC_MESSAGES
mkdir -p locale/en_US/LC_MESSAGES

在此以 hello.php 為例, 建立 hello.php 檔, 內容如下:(PHP 主要用到 putenv, setlocale, bindtextdomain, textdomain, gettext 的 function)

程式(hello.php, 或其它自己建的程式)注意下述幾點即可: 

  1. 語系切換主要是靠 putenv, setlocale.(程式裡面現在是用 $lang 去切換語系, 如何切換可再想更好的方法)
  2. 裡面的 putenv, setlocale 指定的值, 會對應到 /etc/locale.gen 的值, 如果 locale.gen 沒有, 在 putenv, setlocale 設了也沒有用.
  3. PACKAGE 那個變數, 不用 define 也無所謂, 主要是當成 Project name 來用, 到時後翻譯檔建好後, 此名稱就不能再修改(修改翻譯檔需要全部重建(po, mo 檔重建))
  4. gettext() 包起來的就是會被抽取出來的字, 可以用較簡短的寫法 _() 即可. 
將文字取出, 產生 po 檔
  • xgettext -d hello hello.php # -d hello => 產生 hello.po 檔(-d --default-domain=NAME, 跟 bindtextdomain, textdomain 的 PACKAGE 對應, 也和 po 的檔名相對應)
  • PS: 如果 _(), gettext() 包的不只是英文, 需要加 --from-code=encoding, ex: xgettext --from-code=UTF-8 -d hello hello.php
  • cp hello.po locale/zh_TW/LC_MESSAGES/hello.po
  • cp hello.po locale/zh_CN/LC_MESSAGES/hello.po
  • cp hello.po locale/en_US/LC_MESSAGES/hello.po
  • PS: locale/*/LC_MESSAGES/*.po 都是不需要的, 只需要 mo 檔, 但是放 po 在裡面是之後要修改並產生會比較方便.
修改 hello.po 檔(翻譯此檔案)
  • 翻譯主要就是要翻譯 locale/*/LC_MESSAGE/*.po 檔
  • vim locale/zh_TW/LC_MESSAGES/hello.po
  • vim locale/zh_CN/LC_MESSAGES/hello.po
  • vim locale/en_US/LC_MESSAGES/hello.po

修改 hello.po 上面的 header 處, 做以下幾個步驟:(1~5 不做沒關係, 但是 第 6 步 一定要做)

  1. 移除 #, fuzzy
  2. "Project-Id-Version: PACKAGE VERSION\n" => PACKAGE VERSION 改成自己 Project name 和版本, ex: hello-0.1
  3. "PO-Revision-Date: YEAR-MO-DA HO:MI+ZONE\n" => ex: "PO-Revision-Date: 2007-09-16 20:08+0800\n" 
  4. "Last-Translator: FULL NAME <EMAIL@ADDRESS>\n" => ex: "Last-Translator: Jon <jon@email_address>\n" 
  5. "Language-Team: LANGUAGE <LL@li.org>\n" => ex: "Language-Team: Chinese <LL@li.org>\n"
  6. 將 "Content-Type: text/plain; charset=CHARSET\n" 修改成"Content-Type: text/plain; charset=UTF-8\n"
  7. 翻譯會看到 msgid "Hello World!",下面有 msgstr "",就是要修改 msgstr這邊,改成要翻譯的字串.
  8. ex: msgid "Hello World!", msgstr "嗨, 世界!",這樣子之後 "Hello World!" 就都會被換成"嗨, 世界!"
產生 hello.mo 檔
  • msgfmt -o hello.mo hello.po # 這個不是重點, 下面三行才是重點, 直接產生各種翻譯完的 mo 檔
  • msgfmt -o locale/zh_TW/LC_MESSAGES/hello.mo locale/zh_TW/LC_MESSAGES/hello.po
  • msgfmt -o locale/zh_CN/LC_MESSAGES/hello.mo locale/zh_CN/LC_MESSAGES/hello.po
  • msgfmt -o locale/en_US/LC_MESSAGES/hello.mo locale/en_US/LC_MESSAGES/hello.po
  • gettext 看的是 mo 檔, 不是 po 檔 :)
測試

連到 http://Project_URL/hello.php,然後下面有三個連結, 都點點看, 應該就會看到各種不同語系的呈現了.

另一種設置法 所有檔案使用同一個翻譯檔(messages.po)

  1. xgettext *.php (第一次建議要加 -d NAME, ex: xgettext -d messages *.php)
  2. PS: 如果 _(), gettext() 包的不只是英文, 需要加 --from-code=encoding, ex: xgettext --from-code=UTF-8 *.php
  3. vim messages.po # 刪掉 #,fuzzy , 並修改表頭那些資訊
  4. msgfmt -cv messages.po # -cv 是 check 並列出來有哪些錯誤(若都不改表頭, 會出現不少錯誤)
  5. cp messages.po locale/zh_TW/LC_MESSAGES/ # 同理, 修改完 po 檔 cp 到 zh_CN/en_US
  6. msgfmt -o locale/zh_TW/LC_MESSAGES/messages.mo locale/zh_TW/LC_MESSAGES/messages.po # 同理, 可做 zh_CN/en_US
  7. 再來同上面的測試, 一樣測法.

修改檔案, 將新的翻譯合併(msgmerge)回原本的翻譯檔(po檔)

  1. 現在將 hello.php 裡面的 33, 34 行註解拿掉, 主要是 "echo _("New, line!");" 這行, 這代表有新增一個需要翻譯的資料.
  2. xgettext -d hello hello.php
  3. vim hello.po # 改 Content-Type 為 UTF-8, 要做翻譯可於此處就先做
  4. msgmerge -o locale/zh_TW/LC_MESSAGES/hello.po locale/zh_TW/LC_MESSAGES/hello.po hello.po # 合併到原始翻譯檔
  5. vim locale/zh_TW/LC_MESSAGES/hello.po # 若上一步沒翻譯, 則於此時做翻譯
  6. msgfmt -o locale/zh_TW/LC_MESSAGES/hello.mo locale/zh_TW/LC_MESSAGES/hello.po
  7. 這樣子就更新完成囉!

快速整理流程和做法

  1. xgettext -d hello hello.php 或 xgettext *.php (若包含非英文需加上 --from-code=UTF-8)
  2. vim *.po # 最懶的改法只要將 CHARSET 改成 UTF-8 即可.
  3. msgfmt -o hello.mo hello.po 或 msgfmt -o messages.mo messages.po (或 msgfmt -cv messages.po, -cv 會做較嚴格的檢查)
  4. 將 *.mo 放到 locale/*/LC_MESSAGES/ 去即可.

快速整理 更新合併 po 檔流程

  1. xgettext -d hello hello.php 或 xgettext *.php (若包含非英文需加上 --from-code=UTF-8)
  2. vim *.po # 將 CHARSET 改成 UTF-8, 並對新的做翻譯
  3. msgmerge -o hello.po locale/zh_TW/LC_MESSAGES/hello.po hello.po #合併, msgmerge -o "合併完要存的檔名" "現在使用的檔(要跟此檔合併)" "新的po檔案"
  4. vim *.po # 找看看有沒有 "#,fuzzy", 有的話就手動處理
  5. msgfmt -o hello.mo hello.po # 建立 mo 檔
  6. 將 *.mo 放到 locale/*/LC_MESSAGES/ 去即完成更新 

附註

  1. 每次編 po 檔時, 請都要注意 #, fuzzy 的字, 這代表需要去人為修改, 改完後記得把 #,fuzzy 拿掉.(不管是剛開始的新檔案, 或是之後 msgmerge, 只要有需要人為介入的, po 檔 就會產生 #,fuzzy, 告訴你該去關心一下)
  2. 若要翻譯的是此 目錄*.php 和 多個子目錄的*.php, 可用 xgettext --from-code=UTF-8 */*.php *.php
  3. xgettext -d NAME, 此 NAME 會等同於 bindtextdomain(), textdomain(), NAME.po, 任何一個沒對應到, 翻譯結果就出不來.
  4. _() 不能包括變數($var), 如果 _($var) 有包到變數, 那這行就不會被 xgettext parse 出來.
  5. 要判斷要用哪種語系, 判斷法目前想到的有下面幾種:
    • PHP 版
      1. $_SERVER["HTTP_ACCEPT_LANGUAGE"]: zh-TW,zh,en-US,en; ...
      2. $_SERVER["HTTP_ACCEPT_CHARSET"]: Big5,utf-8;q=0.7,*;q=0.7
    • Javascript 版(可用 document.write() 印出來看看)
      1. navigator.browserLanguage # 我測試是 undefined
      2. navigator.userLanguage # 我測試是 undefined
      3. navigator.language # zh-TW

參考

相關標籤

this is comment icon 不解 [回覆]

關於你這篇的內容 , 很詳細 可是似乎我還是不大理解...能不能.再次請教你

Comment by Ben (04/23/2008 11:45)

this is comment icon 回 Ben [回覆]

隨時請問囉 :)

Comment by Tsung (04/23/2008 21:39)

this is comment icon 一些想法 [回覆]

首先,感谢您链接了我的BLOG的文章:PHP中用gettext實現i18n,不过由于最近我的blog重新创建,这篇文章的连接已经改为:http://www.rsywx.net/wordpress/?p=161,还请拨冗修改。

其次,您提到:語系切換主要是靠 putenv, setlocale.(程式裡面現在是用 $lang 去切換語系, 如何切換可再想更好的方法)。在我后来的实现方式中,直接使用客户端IP从而map到一个地区,从而进一步确定该地区的语种(缺省当然还是用en_US),这样用户在登陆时界面语言是自动调整了。当然这个有利有弊,仅供参考。

Comment by TR@SOE (06/23/2008 11:20)

this is comment icon 回 TR@SOE [回覆]

喔喔, 但是這會有個小問題, 就是如果美國人來到台灣, 但是這樣子就會抓到中文, 不過或許可以整合一起當條件判斷~ :)

Comment by Tsung (09/06/2008 13:43)

this is comment icon 回 TR@SOE [回覆]

我現在的作法還是先抓瀏覽器預設的語系, 我是覺得這樣子會是比較符合他自己語系的值, 參考看看囉~ :)

Comment by Tsung (09/06/2008 13:46)

this is comment icon 我使用gettext in windows 有一個問題,希望請教 [回覆]

我在linux下,使用gettext,沒有什么太大問題,可以正常輸出

可是在 windows下,卻一直有個問題在困擾著
環境是:Windows XP + Apache 2.2 + PHP 5.2

問題是,使用gettext返回來的字符串都是 gbk編碼,請教這是什么問題?
服務器也支持iconv,不知道是否還有其他什么需要設置的? 請指教

我的郵箱 jerry2801@gmail.com

Comment by Jerry (11/17/2008 17:16)

this is comment icon 回 Jerry [回覆]

應該是你裡面有中文字, gbk 應該是你系統編碼, 可以用 xgettext --from-code=UTF-8 指定編碼看看~ :)

Comment by Tsung (11/18/2008 02:12)
Add this page to del.icio.us Add this page to Yahoo Taiwan's bookmark Add this page to MyShare

發表迴響

標題

內容 (限制 1000 字)

暱稱

電子郵件

個人網頁


 authimage


PS: 若無法留言, 請先確認是否有打開 JavaScript, 造成您的困擾, 實在萬分對不起 Orz...(如果無法留言, 勞煩可以發信給我好嗎? 謝謝.)
PS2: 若您的留言被誤判, 我都會再自行看過, 不需要一直重覆張貼~