ニュース

ハイパーギア、帳票PDFを自動認識してテキスト抽出する「PDFデータ抽出オプション」

 株式会社ハイパーギアは9日、注文書や請求書などの帳票PDFのレイアウトを自動認識し、必要箇所のテキストをCSV形式で抽出する「HGPscanServPlus PDFデータ抽出オプション(以下、PDFデータ抽出オプション)」を発売した。

 PDFデータ抽出オプションは、注文書や請求書などの帳票PDFからテキストデータを抽出するソリューション。注文書や請求書のテンプレートを搭載し、一般的な記載項目であればレイアウトの登録不要で自動認識する。

 自動解析したレイアウト情報は学習データとして記録し、同じ帳票に新しい項目があれば追加更新する。登録時には無かったレコードは自動追加してCSV出力する。

 学習データは設定画面で確認、編集が可能。対象帳票をサムネイルで表示、テキスト抽出領域をマウス操作で簡単に設定・変更できる。出力するCSVの項目順は任意に設定が可能。注文書、請求書以外の一般帳票の抽出項目設定も登録できる。単一ページや複数ページ、表紙+明細表ページが連続する帳票にも対応する。

 WordやExcel、業務システムなどから出力されたPDFファイルが対象となり、紙をスキャンして生成されたPDFは処理対象外となる。

 PDFデータ抽出オプションの価格(税別)は、年間処理ページ数1200ページの場合で年額6万円、6000ページの場合で18万円、1万2000ページの場合で36万円など。別途、HGPscanServPlusシステム連携オプションのサポート保守加入が必要となる。HGPscanServPlusシステム連携オプションの価格(税別)は63万5000円で、次年度以降は9万5250円。