Unformed Building

許可した漢字だけを使うように指摘するtextlintルールを作った

公開:
更新:

パーマリンク

タイトルどおりですが、許可した漢字だけを使うように指摘するtextlint-rule-ja-allowed-kanjiというtextlintルールを作りました。

すでに特定の漢字セットを使うように指摘するtextlintルールはありますが、自分の要望とはちょっと違う感じでした。

たとえば常用漢字以外は必ずエラーになるというものなので、ユーザーが許可する漢字を増やしたり減らしたりできるようにしたかったのです。

また、基本的にはエラーになる漢字でも特定の熟語は許可するようにしたかったというのもあります。

動機

もともとはNHK放送文化研究所の『NHK漢字表記辞典』を基準にしたルールがほしかったという事情があります。

新用字用語辞典の概要まとまる(1) | ことば(放送用語) - ことばの研究 | NHK放送文化研究所」のPDFを見ると分かるように、NHKの基準は常用漢字とは異なっています。

ほかに、日本新聞協会の新聞用語集(2010年版, PDF)を見ると、新聞常用漢字は常用漢字の一部を使わないようにしたり、特定の熟語の場合は使えるように、などとなっています。

こういった状況に対応できるようなtextlintルールがほしかったのです。

とはいえ、必要な漢字セットを更新し続けるというのも自分にはできそうになかったので、いくつかの漢字プリセットを用意し、そこから漢字を除外したり追加したりできるようにしました。
熟語の対応は、特定パターンの場合は許可するオプションを追加して対応しました。

設定例

リポジトリのREADMEにも似たものがありますが、オプションの例を出します。
次のコードはtextlintの対象とするテキストです。

職権濫用の諜報から得た情報です。
川が氾濫したそうですが、今日のおかずは野菜炒めです。炒飯もあります。

豆を炒るのは明日です。

むちゃくちゃな文章ですが気にしないでください。
これに対して当ルールを初期状態ままtextlintを使うと次のような結果が得られます。

1:6   error  「諜」は許可されていない漢字です。  ja-allowed-kanji
2:22  error  「炒」は許可されていない漢字です。  ja-allowed-kanji
2:27  error  「炒」は許可されていない漢字です。  ja-allowed-kanji
4:3   error  「炒」は許可されていない漢字です。  ja-allowed-kanji

初期状態では常用漢字のみを使うようにしているので、このような結果になります。

次に、先ほどのNHK漢字表記を参考に、「濫」を「氾濫」のみに限定し、「諜」を許可、「炒」を「炒め」の場合のみ許可する設定です。

{
  "rules": {
    "ja-allowed-kanji": {
      "preset": {
        "regular": true, // 常用漢字のみの場合はpresetごと無指定でもOK
      },
      "exclude": "濫",
      "allowKanji": "諜",
      "allowPatterns": [
        "氾濫",
        "/炒(?=め)/"
      ]
    }
  }
}

この設定からは次の結果が得られます。

1:3   error  「濫」は "氾濫" 以外のパターンでは許可されていない漢字です。        ja-allowed-kanji
2:27  error  「炒」は "/炒(?=め)/" 以外のパターンでは許可されていない漢字です。  ja-allowed-kanji
4:3   error  「炒」は "/炒(?=め)/" 以外のパターンでは許可されていない漢字です。  ja-allowed-kanji

こういう感じで、ユーザーが用途に合わせて調整できます。
許可する漢字を増やせば簡単にエラーを消せるので、そのあたりのバランスはお任せします。

その他の設定についてはリポジトリのREADMEを参照してください。

やりたいことはできた

ひとまず、自分の要望を満たすルールは完成したので満足しました。
同じ要望を持つ方にも使ってもらえたら嬉しいです。