合成語病名用語に対するICDコードマスターの開発
Development of the ICD Code Master for the Compound Words of Japanese Disease Names

波多野 賢二,田代 朋子,大江 和彦
東京大学医学系研究科疾患生命工学センター,有限会社ティ辞書企画,東京大学医学系研究科医療情報経済学講座

Abstract
The Japanese Standard Disease Code Master has a modifier table that contains over 1800 words for qualification of disease names. Compound words (i.e. combination of words and modifiers) can provide wide latitude to the vocabulary, so most disease name entry system in hospital computer systems has a function of generation of compound words. However, an issue of accurate classification and coding of compound words is still pending. Surveillance and analysis of ICD-10 classification of complex disease names in the master shows irregular change patterns of the classification and difficulty of automatic coding of compound disease names by logical rules. Based on these results, we recently developed an ICD-code master for compound disease names; consist of 688 compound disease names of external injury and related coding information.

はじめに
標準病名マスターでは、病名基本テーブル(約19,000語)に加えて修飾語テーブル(約1,800語)が用意されている。多くの病名入力システムで病名と修飾語の組み合わせによる合成語病名の造語が可能になっている。専門用語集にとって、合成語を造語出来ることは、表現可能な語彙が飛躍的に増大し、未知の用語にも対応し得るなどの大きなメリットがある。一方で、新規の合成語に対して適切な分類コードを割り当てるための情報を持っていないため、合成語の正確な分類・コーディングが困難になるという問題が生じている。病名入力については、ICD10コードの付与がほぼ必須であるので、合成語病名のICD10コーディングが課題となっている。そのため、標準病名マスターの補助情報テーブルとして合成語ICDコードテーブルの開発が計画された。

目的
病名に修飾語が付加され合成語が作られた場合、病名のICD10コードと修飾語コードを基にして合成語のICD10コードをルール化して予測可能かを検討する。さらにコードが既知の合成語病名についてICD10コードの変化について調査し、コードが変化する場合変化に規則性はあるかを分析し、合成語ICDコードテーブルの適切な形式を探ることを目的とした。

方法
合成語病名のサンプルとしては、標準病名マスターの病名基本テーブルと索引テーブルに収載された病名を利用した。病名のうち他の病名と修飾語の組み合わせで表現できる合成語を抽出し、オリジナル病名と合成語病名のICD10コードを比較した。修飾語の分類コードは、修飾語テーブルの「修飾語区分」情報を利用した。(修飾語区分は、修飾語を部位・位置・病因・経過表現・状態表現・患者帰属などに分類する)
たとえば、「細菌性胃腸炎(ICD10:A40.9)」は修飾語「細菌性(修飾語区分:A3)」と病名「胃腸炎(ICD10:A09)」の合成語であるので、この場合「A09+A3=A04.9」というコード変化パターンを抽出できる。他の合成語病名についても同様のパターン抽出を行い、得られた情報からICDコード変化に規則性が存在するか検討した。

結果
対象になった用語は標準病名マスター2.15版の病名基本テーブルと索引テーブルに収載された病名28,549語と修飾語1801語である。これらの病名のうち、他の病名と修飾語の組み合わせで表せる合成語病名は10248語(35.9%)であった。これらから修飾語付加によるICD10の変化パターン9630組を抽出した。ICD10パターン9630組のうち、ICD10が変化しないパターンが1879組(19.5%)、変化するパターンが7751組(80.5%)であった。
ICD10が変化するパターンのうち、ICD10の4桁目のみ変化するケースが1411組(18.4%)、
3桁目以上が変化 するケースが6340組(81.6%)であった。すなわち、修飾語付加により、大多数のケースでICD10 コードが変化し、その変化がICD10分類の近隣カテゴリーにとどまらないケースが多いことが分かった。
合成語病名 ICD10コード変化のパターンは、大まかに分けて3つに分けられた。
1.病名部分が優先される場合(病名部分で大まかなカテゴリーが決まり、修飾語によってより詳細なカテゴリーに落ち着く、コード変化的には安定なケース)
2.修飾語部分が優先される(修飾語部分で大まかなカテゴリーが決まる。修飾語によって分類が左右されるのでコード変化は不安定)
3.ICD10のローカルルールが優先される(個別のICD10コーディングルールを把握する必要あり、予測は難しい)
一部の病名と修飾語については、ある程度規則的な合成語病名のICD10コードの変化が見られたが、多くの合成語ではICD10コードの変化を有効に予測しうる規則性を見出すには至らなかった。以上のような調査分析に基づき、合成語ICDコードテーブルは個別の合成語のICD10コードを定義する例示型の形式を取ることが適切と考えた。

合成語ICDコードテーブルの概要
外傷(骨折)関連合成語病名688語からなるプレリリース版テーブルを作成・2004年7月に公開した。本テーブルは個別の合成語のICD10コードを定義する内容例示テーブルである。本テーブルの作成に当たっては、コアとなる病名「骨折」に付加しうる修飾語を網羅的に検索し、コア病名と1個または複数の修飾語の組み合わせにより合成語を造語した。その後合成語に対して個別にICD10コードを手作業で付与した。
本テーブルのフィールド構成は以下の通りである:

フィールド (データ例)
・合成語管理番号 (29000002)
・合成語表記 (烏口突起骨折)
・合成語連結表記 (+烏口突起+骨折)
・合成語連結管理番号 (+27000417+20061949)
・正規化連結交換用コード(+R868+4349)
・病名部分ICD10 (T1420)
・合成語ICD10 (S4210)

テーブル本体データおよび仕様の詳細情報は標準病名マスター作業班ホームページより公開している。

考察
筆者らは以前より自由入力病名の自動マッピング・自動分類の試みを行ってきた。今回分類コードが既知の用語の組み合わせによる合成語の分類は、自由入力用語の分類よりもルールや規則性が見出しやすく、それを基に自動分類が可能ではないかという予測の基に今回の調査分析を行ったが、ICD10コードについては有効な規則性の抽出には至らなかった。ICD10は簡潔で明快な分類体系であるが、その分個別の疾患を分類体系に当てはめるルールはかなり複雑であり、そのため修飾語付加によるコード変化の振る舞いも複雑となったと考えられた。
また、今回の分析では修飾語の分類が大まかな区分(8通り)であったため、より詳細な修飾語分類を適用する必要があると思われた。
合成語ICDコードテーブルは、個別の合成語のコードを例示する形式を取ったため、実用性を高めるためには出来る限り多くの合成語のコードを収載する必要がある。現在、腫瘍関連の合成語病名を追加するべく準備を行っている。さらに、合成語病名に対するICD自動コーディングの可能性も併せて検討を続けて行きたいと考えている。

参考文献
標準病名マスター作業班 http://www.dis.h.u-tokyo.ac.jp/byomei/