Microsoft Syntex 分類と抽出を利用してみましょう

皆さんは Microsoft Syntex をご存じでしょうか。

Microsoft Syntex は SharePoint の一部となる機能で、有料オプションとして提供されています。

Syntex のライセンスはもともとユーザーライセンスだったのですが、最近 Azure の従量課金に変わったので、利用の間口はかなり広くなったのではないかと思われます。

というわけで、 SharePoint のドキュメントライブラリからこの Syntex を利用する準備を行ってみたいと思います。

まず、ドキュメントライブラリに入り、三点リーダーより「分類と抽出」をクリックします。

するとモデルの適用というダイアログが出るので、作成ボタンを押しましょう。

ここで行うアクティブ化を行うことで Syntex が有効化される形です。

ここにも記載されていますが、 Syntex を使うとファイルの分類や情報抽出を簡単に行えるんですよね。最近この機能を利用できる範囲がどこにあるかなと業務適用例を考えているのですが、結構活用シーンが多いのだろうなとみています。

アクティブ化するとモデルの作成というボタンが用意された画面に遷移します。

これを押すと最初の定義を作ることができるというわけですね。

モデルは現在 6 種類が用意されています。

【授業方法】では様々なファイルの種類から書類種別の特定とそのデータ抽出を行うものです。

【自由形式】も同じような機能ですが、これを利用すると書類種別は分けずにデータ抽出だけを行うものです。ドキュメントライブラリを指定しながらファイルを格納できる状態ならこのパターンが良いでしょう。ただし言語サポートは英語だけになっています。

【レイアウト】では自由形式と同じような形ですが、英語以外のサポートも行われている形式です。日本語の場合はこれ一択！という感じですね。

【契約処理】は英語だけが対象です。ファイル上部にある契約情報を取得するのに利用しやすいものという内容になっているようです。

【請求書処理】は契約処理と同じようなものですが、下部も対応したものという理解なのですが、英語だけが対象ということなのでまだちゃんと見切れていないです汗

【領収書処理】も英語のみの対応です。画像と PDF が対象ということなので、請求書などと同じものなのかと思います。

ジャーナルに特化しているようですが、見た感じ手書きを読み取れているというのが特徴なのかなと感じました。

というわけで Syntex の紹介でした。見ていただいたように OCR と特定部分の情報抽出が行える Syntex を活用してみませんか？

音楽：ARASHI

（）のブログ