電子帳簿保存法のダウンロードとデータ抽出の可能性

今後、電子帳簿保存法で紙保存をする際には、データ保存の承認をしたいことになるというのが改正の骨子ですね。
データを渡すことについて、何も話になっていないようです。

国税庁は、しがらみが多い組織ですし、やり方を変えることも難しいのですぐには難しいかもしれませんが、データ利用が進む可能性はあるでしょう。

個人でもできるということで、PDFからデータを抜き出しプログラムをつくってみましょう。

もくじ

古参の税理士の認識もあまりない

電子帳簿保存法のデータ保存に対して、古参の税理士の方の意見を聞いた際、

「大手企業に課すような内容を中小企業まで波及させてしまっただけで、結局、やり方は変わらない」

という言い方でした。

それもそうかもしれません。
しがらみとしては、言う通りかなと。

ただ、技術的に抜き出して、処理することが可能です。

データセットでExcel一覧にすることは可能

OCRの技術がどこまでの精度かという点は論点ですね。
それでも、大まかには、PDFデータから一覧表を作成することは可能です。

手元のPCのパワーでも放っておいて別の監査をしておけばいいので、その場で一覧表を作成するという技術はあります。

OCRは無料のものもありますし。
情報管理の観点から無料のものは使わないでしょうが。

Excelの一覧にする方法はたくさんありますが、まずはPythonですね。

まずはPythonがあるとして、ライブラリをインストールしておきます。

pip install pdfminer

それからコードの作成ですね。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def extract_text_from_pdf(pdf_path):
    resource_manager = PDFResourceManager()
    fake_file_handle = StringIO()
    converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
    page_interpreter = PDFPageInterpreter(resource_manager, converter)
 
    with open(pdf_path, 'rb') as fh:
        for page in PDFPage.get_pages(fh, 
                                      caching=True,
                                      check_extractable=True):
            page_interpreter.process_page(page)
 
        text = fake_file_handle.getvalue()
 
    # close open handles
    converter.close()
    fake_file_handle.close()
 
    if text:
        return text

pdf_text = extract_text_from_pdf('invoice.pdf')
print(pdf_text)

最後に、テキストをExcelの一覧に変換します。
PandasとOpenpyxlライブラリを使用する感じで作成しています。

import pandas as pd
from openpyxl import Workbook

df = pd.read_csv(StringIO(pdf_text))
book = Workbook()
writer = pd.ExcelWriter('invoice.xlsx', engine='openpyxl') 
writer.book = book
df.to_excel(writer, index=False)
writer.save()

適当なので、不備もあるでしょうが。
あまりコードの知識がなくても作れるレベルです。

こういう危険性がある上で、「今までと変わらないですよ」とまでは私はいいにくいです。

国税庁のしがらみ

国税庁がデータを使うのにおいていくつか問題があるでしょう。

  1. データのプライバシー問題。
    個人情報を含むデータの、適切なプライバシー保護が必要です。
  2. データのセキュリティ。
    吸い取り側として、セキュリティ対策が必要です。
  3. データのアクセス権限。
     データは、留置きの対象ではないので、アクセス権限の適切な管理はどうなっているか気になります。
  4. データセットの基準の設定方法
  5. 今までのやり方から変更するという文化的な難しさ

技術的な話よりは、文化的に変更する難しさの方が大きな気がします。
その意味では、古参の税理士が言っていたことが正しくなってしまうかもしれません。

今回の緩和措置のやり方を見て、政治の関係で行政が途中で方針変更するということを大きく示してしまっています。

まとめとして

PDFデータから一覧表をExcelにまとめるというのは、比較的簡単にできるものです。
電子帳簿保存法のデータ収集において、技術的には得たデータをまとめる方法があります。

将来的にかもしれませんが、渡したデータから一覧表をつくられるという可能性はあると考えます。

もくじ