波多野 賢二、大江 和彦
東京大学医学部附属病院 中央医療情報部
Lexical analysis of disease name vocabularies for automatic translation to the new disease-code master
Kenji HATANO、Kazuhiko OHE
Hospital Computer Center, The Tokyo University Hospital, Tokyo, Japan
Abstract:
Recently new version of the Standard Disease Master based on ICD10 released and rapid and wide spread use of this master is expected with pervasion of the hospital computer system and the electronic patient record in
many hospitals in Japan. Significant problem is how we translate non-standard vocabularies collected before
introduction of the Standard Disease Master or disease terms by manual entry of the hospital computer system to the new vocabularies. We
developed automatic translate system for disease terms based on two lexical methodologies. One is synonymous words search by the disease term lexicon also covers pronunciation of the terms and variation of characters. Another approach is similarity analysis with several element word dictionaries and evaluation of similarity is key focus of this system.
Keywords: medical term, automatic translation
1. はじめに
2002年5月に標準病名マスターとレセ電算傷病名マスターが各々改訂され、両病名マスターのレコードが統一された。(両者を合わせて新病名マスターと呼ぶ)病名マスターの標準化が進んだことにより、今後これらのマスターの普及が進むことが予想される。
新病名マスター導入の際、問題となるのは、それまで入力され蓄積されてきた病名データをどのように新病名マスターに対応付け、移行するかという点である。この移行が順調に行われないと、新病名マスター導入前に蓄積された診療情報が無駄になってしまう。過去に蓄積された病名に現在でも利用可能なコード(レセ電算コード、ICDコード等)が適切に振られていれば、そのコードをキーにして、新病名マスター収載病名の自動的に対応付けすることは概ね可能である。しかし、コードが振られていない場合や、病名を手書きまたは自由入力していた場合、移行作業を手作業によっていては多数の病名の移行は困難である。何らかの病名を移行を援助するツールが必要である。
また、現在の病院情報システムでは、病名入力はいまだに医師の自由入力を許容しているものが多い。病名マスターが標準化されたことにより、徐々にマスター病名の選択入力方式が普及すると考えられるが、病名入力に対して自由度を求める医師も多く、病名の自由入力方式は簡単には廃れそうもない。自由入力された病名を、新病名マスターが導入されたシステムの中で正当に扱うためには、その病名を意味的に近い新病名マスター病名に変換する必要がある。
そのような状況から、我々は旧マスター病名や自由入力病名(移行元病名)を新病名マスター病名に自動的に変換・移行するツールの開発を進めている。
2. 病名変換の考え方
用語集としての病名を見てまず気が付くのは、とても似通った用語が多いということである。たとえば、新しい病名マスターには「糖尿病」がつくの病名が70個以上収載さているが、「1型糖尿病」、「2型糖尿病」、「1型糖尿病性昏睡」、「糖尿病性昏睡」のように文字列的にきわめて似通った病名が多く、同じようなフレーズが繰り返し使われることが多い。これは自由入力病名でも同様で、文字列が新病名マスターとマッチしない場合でも、例えば「糖尿病腎症」と「糖尿病性腎症」のように、その違いは1、2文字の表記のゆれのみというケースがよく見られる。
つまり、病名は文字列的にはかなりバリエーションが少なく、自由入力であっても突飛な用語が出てくる可能性は少ない。逆に言うとあらかじめ用意した用語集から文字列的に似通った用語を見つけやすいと考えられる。
そのような観点から、移行元病名を新病名マスター病名に変換する方法として、「文字列的な類似性」を基準とすることにした。移行元病名と新病名マスター病名の文字列的類似度を定量化し、類似度が高い新病名マスター病名を変換先病名とするのである。
もちろん、文字列的に類似していることが意味的に類似しているとは限らない。修飾語には「急性」と「慢性」のように1文字違いで正反対の意味になってしまう用語も多い。このような用語を含む病名は類似度の判定を工夫する必要が出てくる。また、固有名詞が付いた病名や漢字を不精してひらがなで書いた病名などは、文字列の比較だけでは如何ともし難い。このようなケースについては、なるべく文字列的な類似度判定処理にかける前に拾い上げて個別に処理する方針とした。
3. 方法
3.1. 検索用語の前処理
まず入力された検索語(移行元病名)を2つの辞書ににより前処理を行う。
a. 異字体辞書
これは「頚」と「頸」のような漢字異字体、「ウイルス」と「ウィルス」のような既知の表記のゆれなどを補正するために用いる。
b. 同義語辞書
新病名マスター病名に対する既知の同義病名(新病名マスター病名そのものも含む)を集めた辞書である。この辞書により新病名マスター病名にマッチングが取れた病名は、この段階で処理を終了し、マッチしたマスター病名を確定的な変換先病名とする。
同義語辞書として、新病名マスターで提供されている索引テーブルを用いた。索引テーブルはマスター病名に対する同義・類義・異字体用語の情報が収載されたものである。
3.2.類似病名検索処理
前項の前処理で同義語辞書にマッチしなかった病名は、類似病名検索のステップに進む。文字通り似通った病名を新病名マスターから探すわけであるが、その方法は以前からよく行わていれる「要素比較」によった。用語をその構成要素に分解した要素辞書をつくり、より多くの要素を共有する用語を検索する方法である。
今回は新病名マスターから抽出した要素辞書のほか、マスター病名を1文字単位に分解した文字要素辞書、マスター病名そのものを要素とした病名要素辞書、既存の要素辞書である「医学用語の体系化に関する研究」(平成9年)で作成された基本語辞書を活用した。
これらの要素辞書は、文字列比較のためのマッチングのみに利用し、要素による用語の意味的分解処理は行っていない。
3.3. 類似度の評価
病名の類似度の評価基準は、基本的には2つの用語の共通要素の数である。今回は複数の要素辞書を用いているので、それら複数のマッチング得られた共通要素数の合計を類似度をあらわすスコアとした。しかし、要素の重要度は辞書によって異なり、同じ辞書の要素であっても意味的に重要なものとそうでないものがある。そのため、スコアの算出に当たっては適当な重み付けを行った。類似度スコアの降順に新マスター病名を並べ替え、最もスコアの大きい病名を変換先病名とするとともに、スコア上位5病名を参考情報として出力した。
4. 結果
新病名マスター導入前に本大学病院の病院情報システムに保存された病名24368語について、このツールを用いて新病名マスターへの自動移行を試みた。
1) 検索用語の前処理の段階で辞書とマッチし、変換先病名を確定できたものは2383語(9.8%)であった。
2) ごく少数の例外を除き、少なくとも1個の変換先病名を検索された。
3) 類似度スコアが3未満で、明らかに不適切な変換結果と考えられるものは909語(4.1%)であった。
4) 類似度スコアが最大の第1候補が不適切でも、類似度スコア上位5位までの候補の中におおむね妥当な変換先病名が含まれていた。
5. 今後の改良の方向
変換精度の向上のための改良の方向には、大きく分けて2つの道がある。1つは類似病名検索ロジック、もうひとつはマスターそのものを含めた辞書の改良の改良である。
5.1.類似病名検索ロジックの改良
検索ロジックの最も重要なポイントは、類似度スコアの計算方法である。最も妥当な変換候補が最大のスコアを持ち、かつ不適切な候補はスコアが低くなるようなスコアの計算方法を見出す必要がある。
5.2. 辞書の改良
極端な仮定ではあるが、異字体辞書と同義語辞書が考えうる全ての用語をカバーしていれば、100パーセント妥当な変換結果が得られるはずである。少なくとも、これらの辞書の情報を増やすことは変換率を向上させる確実な方法であることは疑いない。
今後、これら両面からの改善を重ねていく予定である。
補足
病名移行ツールのオンライ版は病名マスター改訂作業班のページから試用できる。
URL: http://www.dis.h.u-tokyo.ac.jp/byomei/
参考文献: 里村洋一他: 医学用語の体系化に関する研究報告書(情報技術開発研究事業)1997