OmegaTで扱えるOffice文書 ― 2012年10月04日 09:40
OmegaTを使い始めて、初歩的なことで軽くつまづいたことがいくつかあるのでメモしておく。
翻訳対象の原稿はOffice文書が多いのだが、OmegaTで直接処理できるのは、Office 2007以降で作成した「Office Open XML」フォーマットの文書である。ファイル拡張子は、Wordがdocx、Excelがxlsx、PowerPointがpptxとなる。
旧フォーマットのファイル(拡張子doc、xls、ppt)をOmegaTで処理するには、新フォーマットに変換する必要がある。そして、クライアントの要望があれば、旧フォーマットに戻して納品することになる。
翻訳対象の原稿はOffice文書が多いのだが、OmegaTで直接処理できるのは、Office 2007以降で作成した「Office Open XML」フォーマットの文書である。ファイル拡張子は、Wordがdocx、Excelがxlsx、PowerPointがpptxとなる。
旧フォーマットのファイル(拡張子doc、xls、ppt)をOmegaTで処理するには、新フォーマットに変換する必要がある。そして、クライアントの要望があれば、旧フォーマットに戻して納品することになる。
OmegaTのスペルチェック機能 ― 2012年10月05日 11:18
OmegaTの分節化 ― 2012年10月05日 14:41
OmegaTには、原文を処理しやすいように自動的に文を切り分ける機能があり、これを分節化(セグメンテーション)と呼んでいる。例えば、日本語では「。」、英語では「.」「!」「?」を基準に文を区切るのが一般的だ。
初期設定でおおむね対処できるのだが、例外処理が必要なケースもある。例えば、日本語の句点として「。」の代わりに「.」が使われることがある。また、改行(\n)やタブ(\t)で区切ることを新たに指定する必要があることもある。
分節化の規則を変更するには、プルダウンメニューで「Options > Segmentation」を選択し、該当する言語を選び、適宜変更・追加する。規則は以下の項目により設定する。
Break/Exception: 区切るための規則はチェックを入れ、区切らないための規則はチェックを外す
Pattern Before: 区切り直前の文字列パターン
Pattern After: 区切り直後の文字列パターン
文字列パターンは正規表現で指定する。正規表現に不慣れな人にはとっつきにくい部分なので、分かる人に聞くほうが早い場合もあるだろう。
OmegaTのタグ処理 ― 2012年10月14日 11:51
OmegaTでWordなどの原文ファイルを読み込むと、フォントの種類、ボールド、上付き/下付きなどの書式に対応するタグがついてくる。このようなタグを残したまま翻訳作業をすれば、原文通りの書式で訳文を作成できる。しかし、タグが多過ぎて翻訳作業の邪魔になると感じることが多い。
そのような場合は、プルダウンメニュー「Tools」で「Remove Tags」を選択すればよい。この機能はバージョン2.5.1で実装されたもので、それより前のバージョンにはない。
また、バージョン2.6.1からは、プルダウンメニュー「Porject > Properties」で「Remove Tags」を設定するように変わったらしいので、注意を要する。
「Remove Tags」を選択すれば、タグが消えるので翻訳作業に集中しやすい。ただし、訳文ファイル作成後に、原文と照合しながら適宜書式を変更する必要がある。
参考(英文):http://www.velior.ru/blog/en/2012/02/11/omegat-2-5-1-review/
そのような場合は、プルダウンメニュー「Tools」で「Remove Tags」を選択すればよい。この機能はバージョン2.5.1で実装されたもので、それより前のバージョンにはない。
また、バージョン2.6.1からは、プルダウンメニュー「Porject > Properties」で「Remove Tags」を設定するように変わったらしいので、注意を要する。
「Remove Tags」を選択すれば、タグが消えるので翻訳作業に集中しやすい。ただし、訳文ファイル作成後に、原文と照合しながら適宜書式を変更する必要がある。
参考(英文):http://www.velior.ru/blog/en/2012/02/11/omegat-2-5-1-review/
OmegaTとテキストエディタの使い分け ― 2012年10月21日 11:20
OmegaTは翻訳メモリ機能は十分に有用だが、エディタ機能は発展途上という感じがする。いずれエディタ機能も高まるものと期待しているが、当面は、翻訳メモリが有用なことが明らかなときだけOmegaTを使い、それ以外は主にテキストエディタ(サクラエディタ)で翻訳作業をしている。
エディタ上では、
これはペンです。◆
This is a pen.
のような対訳形式で翻訳し(◆は原文の目印)、納品時に訳文のみを自動抽出する。必要があれば、対訳ファイルを
<tu>
<tuv lang="JA">
<seg>これはペンです。</seg>
</tuv>
<tuv lang="EN-US">
<seg>This is a pen.</seg>
</tuv>
</tu>
のようなtmx形式に自動変換し、OmegaTの翻訳メモリとして活用する。なお、変換時にエスケープする必要のある文字がある。
< <
> >
& &
図表が多い場合など、プレインテキストで翻訳作業したとしても、作成した翻訳メモリを使って、元の原文ファイルから訳文ファイルを出力したほうがレイアウト作業が楽になることもある。
その他、検討課題をメモしておく。
●OmegaTの置換機能が弱い点をどう補うか
pluginスクリプトの利用・改良やproject_save.tmxを直接編集する方法
参考:http://dirtysexyquery.blogspot.jp/2012/10/omegat-scripting-plugin-start-external.html
●用語集機能をどう活用するか
単数形と複数形をそれぞれ登録しないとヒットしないので少々使いにくい
[後記:Tokenizerの導入で改善。参考:
http://dirtysexyquery.blogspot.jp/2012/10/omegat-tokenizer-plugin-usage.html]
●辞書機能をどう活用するか
使ったことがない
●ウェブ翻訳機能
使ったことがない。(参考:
http://dirtysexyquery.blogspot.jp/2012/09/omegat-with-microsoft-translator.html)
●ショートカットのカスタマイズ
未経験
エディタ上では、
これはペンです。◆
This is a pen.
のような対訳形式で翻訳し(◆は原文の目印)、納品時に訳文のみを自動抽出する。必要があれば、対訳ファイルを
<tu>
<tuv lang="JA">
<seg>これはペンです。</seg>
</tuv>
<tuv lang="EN-US">
<seg>This is a pen.</seg>
</tuv>
</tu>
のようなtmx形式に自動変換し、OmegaTの翻訳メモリとして活用する。なお、変換時にエスケープする必要のある文字がある。
< <
> >
& &
図表が多い場合など、プレインテキストで翻訳作業したとしても、作成した翻訳メモリを使って、元の原文ファイルから訳文ファイルを出力したほうがレイアウト作業が楽になることもある。
その他、検討課題をメモしておく。
●OmegaTの置換機能が弱い点をどう補うか
pluginスクリプトの利用・改良やproject_save.tmxを直接編集する方法
参考:http://dirtysexyquery.blogspot.jp/2012/10/omegat-scripting-plugin-start-external.html
●用語集機能をどう活用するか
単数形と複数形をそれぞれ登録しないとヒットしないので少々使いにくい
[後記:Tokenizerの導入で改善。参考:
http://dirtysexyquery.blogspot.jp/2012/10/omegat-tokenizer-plugin-usage.html]
●辞書機能をどう活用するか
使ったことがない
●ウェブ翻訳機能
使ったことがない。(参考:
http://dirtysexyquery.blogspot.jp/2012/09/omegat-with-microsoft-translator.html)
●ショートカットのカスタマイズ
未経験
OmegaTでExcelファイルを処理 ― 2012年10月22日 11:43
OmegaTでExcelファイル(xlsx)を読み込むと、セルが一貫性のない順序で読み込まれることがある。これは、Excelでセルが作成された順序を反映しているようだ。
こういうときは、ExcelファイルをOpenDocument Spreadsheetファイル(.ods)に変換して保存し、それをsourceフォルダに入れれば、OmegaT上で各セルが上から順に表示されるようになる。
ただし、Excelを使ってxlsxをodsに変換すると、無用なフリガナが挿入されることがある。Apache OpenOfficeを使ってファイル変換すれば、そのような問題は生じない。
odsファイルを使った翻訳が終了したら、原文ファイルを元のxlsxに戻し、同じ翻訳メモリを使ってOmegaTで読み込む。すべての分節が適切に翻訳されていることを確認し、訳文ファイル(xlsx)を出力する。
★なお最近、XML Spreasheet 2003形式に変換した方がいい結果が得られるという助言もあった。
こういうときは、ExcelファイルをOpenDocument Spreadsheetファイル(.ods)に変換して保存し、それをsourceフォルダに入れれば、OmegaT上で各セルが上から順に表示されるようになる。
ただし、Excelを使ってxlsxをodsに変換すると、無用なフリガナが挿入されることがある。Apache OpenOfficeを使ってファイル変換すれば、そのような問題は生じない。
odsファイルを使った翻訳が終了したら、原文ファイルを元のxlsxに戻し、同じ翻訳メモリを使ってOmegaTで読み込む。すべての分節が適切に翻訳されていることを確認し、訳文ファイル(xlsx)を出力する。
★なお最近、XML Spreasheet 2003形式に変換した方がいい結果が得られるという助言もあった。
OmegaTのUndo動作不具合 ― 2012年10月26日 11:55
後記(2013/4/26):下記のバグはOmegaT 3.0ベータ版で解消した。開発チームに感謝。
--------------------------------------------------
OmegaTで訳文に日本語を入力したのちにUndo(ctr + z)を連続的に行うと誤動作する不具合がOmegaT-doc-jaで報告されている。IMEの使用に関連するバグのようだ。IMEを使わない英文入力やカット&ペースト等をUndoした場合、問題は起きない。
なお、これはWindowsで起きる問題であり、Mac OSX 10.6.8では問題がない。また、これは「Editor」画面で生じる問題であり、「Text Search」画面で入力した日本語をUndoしても問題は起きない。
自分の環境(Windows 7、Microsoft Office IME 2007)でもこの現象が起きる。開発者にも伝わっているはずなので、いずれバグフィックスされるものと期待しているが、当面、日本語入力後の連続Undo操作は要注意であり、バックスペースやCut等で取り消すのが無難なようだ。
ちなみに、OmegaTのUndo機能は作業中の分節内でしか効かないので、あまり過去にさかのぼったUndoはできない。また、1文字ずつ入力を取り消す動作も遅い。そのため、CutやPaste以外に対してUndo機能はあまり使っていなかったので、このバグはこれまで気にならなかった。
バグ報告:
http://sourceforge.net/tracker/?func=detail&aid=3586912&group_id=68187&atid=520347
--------------------------------------------------
OmegaTで訳文に日本語を入力したのちにUndo(ctr + z)を連続的に行うと誤動作する不具合がOmegaT-doc-jaで報告されている。IMEの使用に関連するバグのようだ。IMEを使わない英文入力やカット&ペースト等をUndoした場合、問題は起きない。
なお、これはWindowsで起きる問題であり、Mac OSX 10.6.8では問題がない。また、これは「Editor」画面で生じる問題であり、「Text Search」画面で入力した日本語をUndoしても問題は起きない。
自分の環境(Windows 7、Microsoft Office IME 2007)でもこの現象が起きる。開発者にも伝わっているはずなので、いずれバグフィックスされるものと期待しているが、当面、日本語入力後の連続Undo操作は要注意であり、バックスペースやCut等で取り消すのが無難なようだ。
ちなみに、OmegaTのUndo機能は作業中の分節内でしか効かないので、あまり過去にさかのぼったUndoはできない。また、1文字ずつ入力を取り消す動作も遅い。そのため、CutやPaste以外に対してUndo機能はあまり使っていなかったので、このバグはこれまで気にならなかった。
バグ報告:
http://sourceforge.net/tracker/?func=detail&aid=3586912&group_id=68187&atid=520347
OmegaTのウィンドウ間のコピペ操作 ― 2012年10月31日 14:25
翻訳作業はできるだけマウスを使わずにキーボードで操作したいのだが、OmegaTの現状の仕様ではなかなかそうもいかない。例えば、Glossaryウィンドウ内の一部分を選択・コピーしてEditorウィンドウ内にペーストするような作業にはマウスを使っている。
それでも、AutoHotKey等でショートカットを組み合わせて自動化する手がありそうだ。マニュアルに書かれていないWindows版独自のショートカットもあるので、使えそうなものを備忘のために記しておく。
Ctr + Tab:
Editorウィンドウがアクティブな状態で、別のウィンドウ(Fuzzy Matches、Glossary等)をアクティブにする。
Tab:
Editor以外のウィンドウがアクティブな状態で、次のウィンドウをアクティブにする。
Shift + Tab:
Editor以外のウィンドウがアクティブな状態で、前のウィンドウをアクティブにする。
アクティブになったウィンドウはキーボード操作でスクロールできるが、Editor以外のウィンドウではカーソルが表示されない。ただし、Shift+アローキー等でカーソル位置を把握することはできる。したがって、マウスを使わずに他のウィンドウの中身をEditorにコピペすることが理屈の上では可能だ。
Editor以外のウィンドウや検索ウィンドウ内でカーソル位置が表示されるようになれば、OmegaTの使い勝手がだいぶよくなると思う。いずれ実現するものと期待している。
[後記1:検索ウィンドウ等でのキャレット表示は、OmegaT 2.6.1 update 2で実現した。開発者に感謝。]
[後記2:エディタウィンドウ内の原文セグメントもキーボードだけで選択できるようになると、検索等で非常に便利だと思う。原文および訳文セグメント間でキャレットを移動するキーボードショートカットが必要になるだろう。]
それでも、AutoHotKey等でショートカットを組み合わせて自動化する手がありそうだ。マニュアルに書かれていないWindows版独自のショートカットもあるので、使えそうなものを備忘のために記しておく。
Ctr + Tab:
Editorウィンドウがアクティブな状態で、別のウィンドウ(Fuzzy Matches、Glossary等)をアクティブにする。
Tab:
Editor以外のウィンドウがアクティブな状態で、次のウィンドウをアクティブにする。
Shift + Tab:
Editor以外のウィンドウがアクティブな状態で、前のウィンドウをアクティブにする。
アクティブになったウィンドウはキーボード操作でスクロールできるが、Editor以外のウィンドウではカーソルが表示されない。ただし、Shift+アローキー等でカーソル位置を把握することはできる。したがって、マウスを使わずに他のウィンドウの中身をEditorにコピペすることが理屈の上では可能だ。
Editor以外のウィンドウや検索ウィンドウ内でカーソル位置が表示されるようになれば、OmegaTの使い勝手がだいぶよくなると思う。いずれ実現するものと期待している。
[後記1:検索ウィンドウ等でのキャレット表示は、OmegaT 2.6.1 update 2で実現した。開発者に感謝。]
[後記2:エディタウィンドウ内の原文セグメントもキーボードだけで選択できるようになると、検索等で非常に便利だと思う。原文および訳文セグメント間でキャレットを移動するキーボードショートカットが必要になるだろう。]
最近のコメント