最終更新日:2023-07-04
データマスキング処理の効率を向上させたいシステム運用部門の方や、データを扱うマーケティング部門の方へ。データマスキングツールの機能やタイプ、比較する際に注目したいポイントについてご紹介します。
データマスキングツールは、個人情報をはじめとした機密情報を保護するためのソフトウェアツールです。データの匿名化を行い、不正アクセス、改ざん、情報漏えいなどのリスクを防ぐために利用されます。
たとえば、マーケティング目的でデータ分析環境を社内に構築したり、システム開発時にテスト環境を用意したりする場合を考えてみましょう。通常は本番のデータベースから検証用のデータベースに、データをコピーして利用します。しかしテスト環境は、運用の利便性から本番環境よりもセキュリティを緩めることが多いため、機密情報を含むデータをそのまま使用すると情報漏えいのリスクが生じます。コールセンターへの問い合わせやアンケート結果を集約する場合なども同様です。
上記のようなケースでは、情報漏えいを防ぐために機密情報のマスキング(匿名化)が必要に。しかし、手動でデータの書き換えや削除を行うと、ヒューマンエラーや工数の増加、本番とかけ離れたデータになってしまいテストや分析に使えない、といった問題も懸念されます。ここで役立つのが、マスキングを自動化するデータマスキングツールです。
データマスキングツールを使用することで、データ分析やシステム開発の効率性を高めるとともに、情報漏えいのリスクを低減できます。また、サービスによってはリアルタイムのマスキング機能も備えており、作業を中断することなく匿名化されたデータを扱うことが可能です。
データマスキングツールには、主に以下の5つの機能があります。各機能を解説します。
AIやアルゴリズムを用いて、マスキングすべき機密情報を自動で特定・抽出します。「会員番号のみ」「電話番号のみ」「氏名のみ」など、抽出したい情報をユーザーが個別に設定できます。期間の絞り込みや、特定のトランザクションデータのみ、顧客情報のようなマスターデータのみといった柔軟な運用も可能です。AI技術を採用しているツールでは、アンケートの自由記述欄やメール文面などフリーテキストのリアルタイムマスキングにも対応しています。
抽出した機密情報を書き換え、匿名化する機能。マスキング処理には一般的な墨消しのほか、文字列の一部だけを置換する、文意を損なわず単語だけをマスキングするなど、様々な処理方法があります。詳しくは、比較ポイントにて解説します。
抽出したデータ以外の、不要な部分を削除します。共有の必要がない機密情報を削除して漏えいリスクを軽減するほか、情報量を減らすことで処理速度の向上が期待できます。
実際のデータをもとに、類似データを生成します。元のデータの特性や数値の属性を保持しながらデータの数を増やせるため、統計分析やAIの学習、訓練、テストデータとして活用できます。少ないサンプル数でも高い精度の分析を行えるのが利点です。
マスキング処理を行ったデータを、匿名性や有用性、照合可能性といった指標で評価します。評価を参照しながら加工技法の組み合わせを選択することで、希望するマスキング結果に近づけられます。
中には、マスキングしたデータのファイル化や、変換処理に関するレポート作成ができるデータマスキングツールも。
データマスキングツールは大きく3つに分類できます。それぞれの対応範囲を把握し、目的に合ったものを選びましょう。
分析データ作成にも、システム開発におけるテストサーバー用のデータ作成にも対応するタイプです。
たとえば、「PK Masking」ではHadoop、Teradata、Snowflake などの分析システムに適したマスキングデータを作成。オリジナルの値は許可されたユーザーにのみ表示されるため、安全な分析が可能です。また、本番用のデータベース管理システムからコピーを作成する際、機密データには自動的にマスキングを行います。
システム開発のテストデータ作成に特化したタイプ。匿名性と有用性のバランスを保ちながら、テストの性質ごとにマスキングの設定を柔軟に調整できるのが強みです。
たとえば「個人情報秘匿システム(株式会社アグレックス)」では、項目ごとにマスキングの必要有無を選択。姓名や住所、日付などの変換箇所を細かく指定できるほか、文字ごとに決まった変換を行うことで、同一人物や同一企業のデータを整理する名寄せテストにも利用できます。
メールや電話で寄せられた意見・要望の記録やアンケート回答など、ファイル形式で管理されているデータのマスキングに特化したタイプです。フリーテキストのマスキングは特に抜けもれが起こりやすく、自動化することで大幅に人員や手間を削減できます。
たとえば、「AimeMasking」では人名、会社名、メールアドレスなど多数の機密情報カテゴリを自動で発見。同等カテゴリへの置き換え(例:「田中さん」→「鈴木さん」)を行うことで、統計上・言語処理上の意味を保ち、データ分析にも利用できます。
データマスキングツールを選定する際に比較したい、3つのポイントを解説します。
どのような加工方法でマスキングをするのか、また、どのように匿名性と有用性のバランスをとるのかを確認しましょう。データの種類・内容や利用目的に合致した加工方法が用意されていれば、データの有用性を保てます。加えて様々な評価方法に対応していれば、評価指標を確認しながらデータや利用目的にあった加工方法を選定できるため、匿名性を保ちつつ、本番データに近いテストデータが得られるのです。
加工方法の例として、以下が挙げられます。
評価技法の例として、以下が挙げられます。
どのようなデータベースやファイル形式に対応できるかを確認しましょう。自社で使用しているデータベースやファイル形式に対応するツールであれば、導入がスムーズです。
たとえば、「Insight Data Masking」は、ファイル形式ではCSVとParquet、データベースではOracle Database、Microsoft SQL Server、PostgreSQL、MySQLと幅広く対応しています。また、「テストエース」の変換対象ファイルはCSVとTSV、対応データベースはOracle Database、Microsoft SQL Server、PostgreSQLです。
リアルタイムでデータマスキングを行う機能の有無を確認しましょう。
たとえば、データレプリケーションを行う場合には「Insight Data Masking」のリアルタイムマスキング機能が有用です。「Qlik Replicate Masking Option」により、異なるデータソース間で同期とマスキング処理を並行して行えます。
また、「tasokarena」の自動実行機能は、あらかじめルール化したマスキングと、その結果の評価をリアルタイムに近い形で実行します。マスキングを行う際に操作者を必要としないため、定期的なマスキング処理に適しています。
分析データとテストデータ作成に対応できるデータマスキングツールを紹介します。
(出所:Insight Masking公式Webサイト)
ファイル、データベース、異なるデータベース間のマスキングを可能とする、総合力の高いマスキングツール。AIエンジン(Insight Asir)を使った解析でデータ内の機密情報を自動的に抽出し、データマスキングプロセスの作業負担を大幅に軽減する。マスキングデータは元データのユニーク性、参照整合性、統計的特性を維持するため、本番と同様の機能テストや性能テストを実行できる。
設計・スクリプト開発のアルゴリズム自動推奨や、「Qlik Replicate Masking Option」を用いた異なるデータソース間の並行マスキング処理など、機能性の高さも魅力だ。
(出所:tasokarena公式Webサイト)
NTTグループが手がけるデータマスキングツール。マスキング前の元データが少ない場合には、匿名性が薄れるリスクや分析の精度が下がる恐れがあるが、本ツールは合成データ生成技術(特許技術)によって元データに類似した「実在しないパーソナルデータ」の大量生成を実現。元データの量が少ない場合においても、本来膨大な量のデータを必要とするAI学習・訓練などの作業が可能になる。
パーソナルデータを入力・設定するだけでAIが数十種類の加工技法から最適なカスタムを提案する「加工ルール自動生成ツール」、自治体・医療機関・健康保険組合などの共通仕様となっているレセプトデータを読み込みできる「医療向けパッケージ」など、豊富なオプションを用意している。
(出所:PK Masking公式Webサイト)
企業が保有する機密情報をマスキングするツール。データベース内の機密情報を一貫して保護する静的マスキングと、データ使用時にのみ機密保持性を確保する動的マスキングに対応しているのが特徴。前者はより機密性レベルの高いデータに、後者は分析用のサンプルデータに適しており、データの匿名性と有用性のバランスを調整しやすい。
Hadoop、Teradata、Snowflake などの分析システムにおいては、機密性の高い列や要素をマスキングまたは暗号化を実行。オリジナルの値は復号化され、許可されたユーザーにのみ表示される。
(出所:Accelario Data Masking公式Webサイト)
ルックアップリストと自己学習型AIからなる機密データ検索エンジンを介して、高速データマスキングを行うツール。スキャンおよびマスキングのスピードは業界最高水準。セルフポータル式のシンプルな設計で、本番環境に準拠したマスキングデータを誰でも簡単に作成できる。
マスキングだけではなく、スキャニングによって機密保持を図れるのも特徴の一つ。AIを活用したデータ検索エンジンからアラームを受け取り、継続的にスキャンを行うことで機密情報への不正アクセスを発見・防止する。
(出所:AimeMasking公式Webサイト)
AI・機械学習データをマスキングするためのツール。人名・会社名など多数のデータカテゴリに対応しており、「鈴木さん→高橋さん」といったように同等カテゴリで名詞の置き換えが可能。データの意味を保持しながら匿名化ができる。フォルダ全体を一括でマスキングする、他社でエンコードされたデータを自社でデコードする、固有表現や固有名詞を認識するなど、データ処理やマスキングの作業効率向上に配慮された使い勝手のよい機能を多数用意。マスキングの際にネットワーク接続が不要で、ローカル環境で実行できることもセキュリティ対策上大きなメリットとなる。
テストデータ作成に特化したデータマスキングツールを紹介します。
※料金はすべて要問い合わせ
(出所:個人情報秘匿システム公式Webサイト)
構造化された個人情報データを秘匿化し、架空のデータに変換することで、本番データさながらのテストデータを作成するツール。墨消しや記号への一律変換ではなく、姓名、住所、月日などカテゴリごとに適した変換を行うほか、「13月50日」など、あり得ないデータを排除することでテストデータの有意性を保持する。また、同一文字には決まった変換がなされるため、マスキング後のデータを使った名寄せテストも可能。
加工ルールは定期的に再生成され、過去のマスキングデータとの照合を防止するため、継続利用しても高いセキュリティを確保できる。
(出所:テストエース公式Webサイト)
本番データの情報を自動解析し、類似した擬似テストデータを大量に生成するツール。特許取得済のアルゴリズムで本番データを解析し、自動的に個人情報の項目を特定・判断。最適な変換方法をユーザーに提案するため、簡単な操作でテストデータを作成できる。テストデータは関連を維持した本番そっくりなものなので、本番環境でしか再現しない問題の解決にも役立つ。
データはCSVやTSVといった形式での出力も可能。実行した変換処理は詳細なレポート形式で出力されるため、ユーザーが自身で作業報告を作成する必要はなく、大幅な業務負荷軽減が期待できる。
ファイルのマスキングに特化したデータマスキングツールを紹介します。
※料金はすべて要問い合わせ
(出所:フリーテキストマスキング公式Webサイト)
コールセンターの応対履歴やレセプト、アンケートの自由記述欄などの文章から氏名や住所、クレジットカード番号などの個人情報を検出し、マスキングする匿名・仮名加工支援ソリューション。住所や学校、姓名などの固有名詞の辞書データの提供実績を持ち、そこで得たデータクレンジングのノウハウを活用し、高精度での個人情報検出を実現する。ユーザー独自のデータを追加登録することで、更なる精度向上が期待できる。
セキュアなオフライン環境でマスキングができるため、より安全にデータを取り扱える。マスキングしたデータはVOC分析や研究開発のための統計分析、AI教師データなどに活用できる。
(出所:個人情報マスキングAIツール公式Webサイト)
ブラウザやWebAPIを通じてデータをアップロードするだけで、自然言語処理AIがテキスト内の個人情報を自動検知し、機密情報を簡単に匿名化する個人情報マスキングAIツール。自然言語処理AIが文章中の個人情報を自動検知し、コールセンターの対応履歴や外部へ委託する分析データなどを安全な状態に加工できる。
金融、流通・小売では新規サービス創出に、製薬・医薬品販売では新薬開発・学術研究にと、様々な業界でオープンデータが活用され、同社サービスの汎用性と手軽さが高く評価されている。クラウドとオンプレミスの2種類の導入方法に対応。
データ分析やシステム開発、顧客情報の管理といったシーンで機密情報を扱うことが、企業では数多くあります。情報漏えいを防ぐためには機密情報をマスキング(秘匿化)する必要がありますが、手動で行うには担当者の負担が大きすぎる、ヒューマンエラーの可能性が高い、本番データとかけ離れてしまい分析やテストに使用できないといった課題があります。
そこで役立つのがデータマスキングツールです。機密情報データを自動で抽出し、非機密データや生成した疑似データに置き換えが可能。担当者に工数の負担をかけずに情報漏えいを防ぎ、匿名性と活用時の有用性のバランスのとれた、価値の高いデータを生成できます。
データマスキングツールを選ぶ際は、次の3つのタイプのうち、目的に合致するものを見ていきましょう。
(1)分析データとテストデータ作成に対応
(2)テストデータ作成に特化
(3)ファイルのマスキングに特化
機密情報の漏えいを防ぎ、開発テストやデータ分析を通じてよりよいサービスを顧客に提供するために、データマスキングツールの活用を検討してみてはいかがでしょうか。
<重要なお知らせ> サイトリニューアルに伴い、初回ログインにはパスワードの再設定が必要です。
アスピックご利用のメールアドレスを入力ください。
パスワード再発行手続きのメールをお送りします。
パスワード再設定依頼の自動メールを送信しました。
メール文のURLより、パスワード再登録のお手続きをお願いします。
ご入力いただいたメールアドレスに誤りがあった場合がございます。
お手数おかけしますが、再度ご入力をお試しください。
ご登録いただいているメールアドレスにダウンロードURLをお送りしています。ご確認ください。
サービスの導入検討状況を教えて下さい。
本資料に含まれる企業(社)よりご案内を差し上げる場合があります。