解説 コンピューターで使われる文字コード体系にはさまざまなものがある。 Windowsで使われる文字コードとしては、MS-DOSの時代から「 シフトJIS」コードがほぼ標準であった。 だが、UNIX/LinuxやMac、スマートフォン/タブレット、そしてインターネット環境などでは、その他の文字コードも多く使われている。 また日本語だけでなく、世界中の言語もコンピューターで統一的に取り扱うために、現在のWindows OSでは、内部的には「 」を使って処理を行っている。 そして外部との入出力時に他の文字コードと相互に変換を行っている。 日本語に限っていえば、現在のWindows環境では以下のような文字コード形式がよく使われている。 文字コード名 意味 ANSI アルファベットの英数字記号文字を含む、7bitの基本的な文字コード。 他の文字コードでも、英数字部分の文字コードはこのANSI文字コードをベースにしているものがほとんどである。 ASCIIコードとも呼ばれる シフトJIS MS-DOSの時代から日本で広く使われてきた文字コード。 漢字文字コードとして、「JISコード」表をべースにして変形させたもの(シフトしたもの)を利用して、ANSI文字と共存させているのでこう呼ばれる。 PC環境では一般的な日本語文字コード EUC 初期の日本語対応UNIX環境で広く使われていた日本語文字コード。 シフトJISとは異なる方法でANSI文字と漢字文字を共存させている。 現在のUNIX/LinuxではUnicode/UTFを使っているものが多い JISコード ANSI文字コードと漢字文字コードを、「エスケープシーケンス」と呼ばれる特別な文字シーケンスで切り替えながら共存させている文字コード。 従来、インターネット電子メールはこの文字コードで送受信されることが多かったが、代わりにUTF-8がよく使われるようになってきている Unicode 世界中の文字を16bitもしくは32bitの固定長の文字コードで統合的に扱うために作られた文字コード。 文字の種類によらずコード長が一定しているので、プログラムから扱いやすく、OSやアプリケーションの内部コードとして使われることが多い。 ただし次のUTF-16と同義に使われる場合も多い。 Windows OSも内部ではこのUnicodeを利用している UTF Unicodeをベースにして、実際にファイルに格納したり、通信を行う場合のバイトデータの並べ方などを規定したもの。 UTF-7とか UTF-8、UTF-16、UTF-32などがある。 UTF-16では、の違いにより、形式と形式などの違いがある。 特にUTF-8は、シフトJISやJISコードに代わってよく使われるようになってきている 日本語のWindows OS環境でよく使われる文字コード これら文字コードの違いは、通常のユーザーは気にする必要はない。 だが場合によっては、文字コードの違いによって正しく処理ができないといったケースもある。 例えば、Windows OSのコマンドプロンプト上で使われる各種の標準コマンドでは、シフトJIS以外の文字コードで書かれたテキストを処理できないものが多い(コマンドによってはシフトJISとUnicodeの両方が使えるものもある)。 またメモ帳では、「 JISコード」や「 EUCコード」で書かれたテキストファイルを開くと文字化けしてしまう。 このような場合は、アプリケーションが理解できる形に、あらかじめ文字コードを変換しておくことが望ましい。 本稿では、何かツールを用意することなく、Windows OS標準装備のInternet Explorer(以下IE)を利用して手軽に文字コードを変換する方法を紹介する。 その他の方法については、次の記事を参照していただきたい。 操作方法 ファイルに含まれる文字のコード(漢字の文字コード)を変換するには、Internet Explorer(以下IE)を使うのが簡単でよい。 操作方法としては、単にIEで対象ファイルを開き、別の文字コードを指定してテキスト形式で保存するだけである。 これだけで別の文字コードに変換できる。 txt」というファイル名に変更する。 そしてこれを、起動したIEのウィンドウへドラッグ&ドロップする。 この時点でIEの画面には、対象ファイル内に記述されたテキストが正しく表示されているはずである(その場合は「」へ進んでいただきたい)。 だが、この段階で文字化けが生じることもしばしばある。 IEではファイルやWebページ中で使われている文字コードを自動的に判別して、正しい文字コードで表示する機能を持っている。 しかし、文字コードを判別するための情報が少なかったり、判別不可能な文字ばかりが使われていると、文字コードの判別に失敗して文字化けが生じることがある。 このような場合は、ユーザーが手動で「正しい」文字コードを指定すればよい。 どの文字コードなのか分からない場合は、以下の画面のポップアップメニューで各文字コードを1つずつ選択して、文字化けが解消されるまで試してみよう。 IEで表示中のテキストの文字化けを直す 表示されている文字が化けている場合は、ユーザーが文字コードを明示的に指定することにより、強制的に正しい文字コードで表示できる。 文字コードを指定してファイルを保存するためには、あらかじめ正しく表示させておかなければならない。 (1)現在のエンコーディング形式がこのようにマーク付きで表示される。 これが望みの文字コードでない場合は、他の文字コードを選択できる。 ただしJISコードの場合は[日本語 JIS ]という項目が淡色表示されるが、[日本語 JIS ]を選択することはできない。 代わりに[日本語 自動選択 ]を選択する。 (2)[日本語 自動選択 ]は、文字コードを自動的に判別させる場合、およびJISコードを選択したい場合に使用する。 (3)すでに何度か使った文字コードの場合はここに表示されているので、素早く選択できる。 (4)あまり使ったことのない文字コードの場合は、[その他]を選択すると、(日本語以外も含む)全てのエンコーディング形式がサブメニューとして表示される。 すると次のような画面が表示されるので、[エンコード]で文字コードを選択して保存する。 現在の表示内容がWebページの場合は、[ファイルの種類]を[テキスト ファイル]にすることにより、テキスト文字部分のみをテキストファイルとして保存できる。 選択できる文字コードの名称 意味 Unicode 16bitのリトルエンディアンのUTF-16(16bit Unicode) *1 Unicode UTF-8 UTF-8(8bit Unicode) *1 日本語 EUC EUCコード 日本語 JIS 1 バイト カタカナ可 JISコード 日本語 シフト JIS シフトJISコード IEで保存できる文字コードの種類(日本語関連のみ) *1 IE8以前では、ファイルの先頭にBOM(Byte Order Mark)と呼ばれる、Unicodeの特別なデータが先頭に書き込まれない。 IE9以降では正常に書き込まれる。 BOMとは、を識別するための特別なデータだ。 特にUnicode(UTF-16)の場合、ファイルの先頭にこのBOMを記入しておくことで、バイトオーダーを正確に判定できる。 BOMが存在しないと、アプリケーションによっては正しくUnicodeファイルを読み込むことができない場合がある。 このような場合は、IEで保存するのではなく、IEの画面上でテキストを選択・コピーしてからメモ帳に貼り付け、そこであらためてUnicodeで保存するなどの操作を行えばよい。 メモ帳がUnicodeで保存する場合は、必ずBOMが書き込まれるからである。
次の
文字コードを変換する方法 変換したいテキスト ファイルを開きます。 ファイルが正常に表示されない場合 [ファイル]から[開く]をクリックします。 正しい文字コードを指定して開きます。 ファイルが正常に表示される場合 [ファイル]をクリックし、[名前を付けて保存]をクリックします。 文字コードを選択し、[保存]をクリックします。 選択可能な文字コードは、次のとおりです:• ANSI• UTF-16 LE• UTF-16 BE• UTF-8• UTF-8 BOM 付き 参考• 現在のメモ帳では「UTF-8」で保存されます• 以前のメモ帳では「ANSI」で保存されていました 「名前を付けて保存の確認」が表示された場合、既存のファイルを書き換えて良い場合は[はい]をクリックします。 書き換えない場合は、[いいえ]をクリックして戻り、別の名前を指定して再度「保存」をクリックします。 このメモ帳で、単純な文章を記載して保存します。 保存したファイルを表示するコマンドを実行すると、文字化けしました。 本記事記載の作業を行うと、正しく表示されます。 機能の追加と標準値の変更 以前はこのようなことはありませんでしたが、最近になってこのような問題が発生するようになりました。 これは、メモ帳に新たな機能が加わったことと、標準値が変更されたことによります。 これまでは、コマンドもメモ帳も日本語環境では日本語環境用の値を共通して使っていたため、何ら問題は起こりませんでした。 しかし今回、メモ帳の標準値が変更され、より国際的に広く使われる値になりました。 これにより、例えば、Windows 以外の環境で作成したテキスト ファイルや人気のあるブログ システム WordPress の設定を行う事ができず、そのためだけにほかのソフトウェアを導入しなければならない問題が無くなりました。 一方、メモ帳とコマンドの共通事項が合致しなくなり、文字化けが起きることになりました。 一般的な利用ではまったくと行ってよいほど気にすることはありませんが、例えば Windows 10 で作成したテキストファイルを以前の Windows 環境で開くと正しく表示されない問題に遭遇する可能性があります。 JP サポート All Rights Reserved. SEECK. JP Knowledge Base は、これまで寄せられた多くの質問やサポート情報等を統計的あるいは類似性等に基づきまとめ、その一部を開示するのでありユーザーが SEECK. JP への問い合わせを行うより早く問題を解決できる可能性を示すものです。 これは必ず問題を解決できることを保証するものでもなく、また記載されている情報が常に真実であり、最新の情報であり、全ての問題を解決できる等を約束するものではありません。 さらに SEECK. JP は、本情報の使用及び使用結果につき、いかなる保証も行ないません。 本情報はいかなる保証もない現状ベースで提供されるものです。 SEECK. JP は、全ての損害に対して状況のいかんを問わず一切責任を負いません。 商標登録表示等を省略している場合があります。 メニュー.
次の
iconv• フォーマット: iconv -f ファイルの文字コード -t 変換させる文字コード 対象ファイル• csv• nkf• csv• csv• log nkf -u -w 【一括置換】• 拡張子がtxtのすべてのファイルをUTF-8に一括変換する• find. txt'-type f -print0 xargs -0 nkf -u --overwrite -w•
次の