青空文庫からの置換一覧(作成中)

 以下は筆者の覚え書きを兼ねた青空文庫形式からの検索・置換正規表現一覧です。エディタで一つずつ置換する時用のリファレンスです。
 Unicode文字プロパティ \p{プロパティ名} に対応していない環境では動きません。またAtomのようなJavaScript系の環境では戻り読みができないので、(?<=式)・(?<!式)が出てくる表現は使えません。
 鬼雲(鬼車)エンジンを積んでいれば安心です。具体的にはMeryを使いましょう。
 可能な限り考慮しましたが、青空文庫の注記一覧から外れた書き方をしている文書は原則としてサポート外です。また正規表現だけでは困難な処理は結局目視で書き換えることになります。
 全部まとめて自動化したスクリプトは現在作成中です。しばしお待ち下さい。

最初に

 原稿は必ずUTF-8エンコードで保存してください。置換が全て終わるまでTeXのコマンドやプリアンブルはつけずに、原稿本文だけの状態にしておいてください。
 原則としてこのページの処理は書かれている順番に行います。「すべて置換」は押さず、1回ずつ「次を検索」「次を置換」を押していくのがベターです。

 青空文庫では注記の中の数字は全て全角です。これは正規表現による置換だけでは対応できないので、初めに他の手段で半角に変換しておきます。ここではMeryのテキスト整形マクロ及び全角/半角変換プラグインを使います。

[.*?[0-9].*?]で検索・選択しながらマクロかプラグインで変換(手で書き換えてもいい)

本文のサニタイズ

外字

特殊記号

アクセント分解

縦中横

検索する文字列:(.+?)[#「\1」は縦中横] → 置換する文字列\\rensuji{\1}

comments powered by Disqus