Pythonによる日本語の”あいまい検索”

〇日本語の”あいまい検索”

「Pythonによる日本語の”あいまい検索”」です。Ｗebサイトから大量のデータをダウンロードした場合、Excelの計算式や検索機能を使って適切に分析する必要がありますが、データが数字ではなく日本語の場合はやや厄介です。そこで、Python上で日本語を”あいまい検索”して、データを自動的に仕分けて見たいと思います。
題材として、「PythonによるＷebサイトの自動検索－２」で作成した「ネガティブ情報」のExcelファイルを使います。このファイルで、どのような場合にどのような行政処分を受けているのかを調べる場合はプログラムによって抽出された「処分理由」欄を読む必要がありますが、国や47都道府県の担当者が作成したものをそのまま掲載しているため書式がバラバラで、一つ一つの内容を把握していくのは結構大変です。
建設業者が行政処分を受けるのは、法人・役員・使用人が業務に関し、建設業法以外のその他の法令に違反し刑罰が科されたときと、建設業法そのものに違反したときに大別されます。そこで、「処分理由」に含まれる特定の文言から、建設業法以外の法令に違反したためと判定できるときはどの法令に抵触したのかを返し、そうでない場合は建設業法のどの規定に違反したのかを返す処理を、Pythonで自動的に行えるようにしてみたいと思います。
プログラムは「PythonによるＷebサイトの自動検索－２」のプログラムに、新たに次のステップで「判定フレーズ」のリストと判定処理ルーチンを加筆することにします。

まず、違反すれば処分の対象となることが多い建設業法以外の「その他の法令違反」のリストを作ります。「処分理由」項目にどのような文言があれば法令違反により行政処分を受けたと判定できるのか、「判定フレーズ」と「法令名」の組合せでリスト化します。基本的には当該法令名が「判定フレーズ」となりますが、法令名は正確に書かれないことも多いので、ここでExcelの検索でも使う「ワイルドカード」（特殊記号部分は不特定の文字列で良いとするもの）を使って”あいまい検索”できるようにします（Excelのワイルドカードの特殊記号は「*」（半角アスタリスク）ですが、Pythonでは「.*」（半角ドットアスタリスク）となります）。

次に、違反すれば処分の対象となることが多い「建設業法違反」のリストを作ります。「処分理由」項目にどのような文言があれば建設業法により行政処分を受けたと判定できるのか「判定フレーズ」と「建設業法の規定」の組合せでリスト化します。「判定フレーズ」は２つの組合せとし、1つ目の判定フレーズに対し、対になる2つ目の判定フレーズは複数設定できるようにします。多元的に複数の判定フレーズを設定できるので、これも一種の”あいまい検索”と言えるかと思います。ここでは、2つ目の判定フレーズを2次元リスト（リスト内リスト）としています（2つ目の判定フレーズが1つしかない場合も必ずリスト記号（[]）で括る必要があることに留意して下さい）。

判定の処理ルーチンでは、まず「その他の法令違反」のリストを順に読んでいき「処分理由」項目に当該リストの判定フレーズを発見すれば、「その他法令違反」項目に当該判定フレーズに対応した違反をしたと思われる「法令名」を書き加え、その後の処理はスキップしてfor～文から離脱（「break」）します。従って、「その他の法令違反」のリストは、リストの上位ほど優先されます。なお、Pythonでは、文言にワイルドカードを設定した場合、そのままでは使えず、「reモジュール」の関数で処理する必要があります。★ここでは「re.compile」関数で（ワイルドカードを含む）判定フレーズを前処理（コンパイル）してから「search」関数で検索していますが、「re.search」関数で前処理なしに検索することも可能です（その場合のプログラムは、【 reg = re.compile(y[j][0]) 】の行を削除して次の行を【 if re.search(y[j][0],rg_riyuu) != None: 】とし、その後は同じ）。ただ、ワイルドカードのような「正規表現」は前処理（コンパイル）した方が処理が速いとも言われます。

「その他の法令違反」の判定フレーズが見つからなかった場合は、次に「建設業法違反」のリストを順に読んでいき「処分理由」項目に当該リストの判定フレーズ2つの組合せが揃っていることを発見すれは「建設業法違反」項目に当該判定フレーズに対応した違反をしたと思われる「建設業法の規定」を書き加えて、その後の処理はスキップして（二次元リストと照合しているので）内側のfor～文から離脱（「break」）するとともに外側のfor～文からも離脱（「break」）します。従って、「建設業法違反」のリストも、リストの上位ほど優先されます。

プログラムは次のとおりです。青色の★のある行が「PythonによるＷebサイトの自動検索－２」のプログラムに加筆した部分です。「建設業法違反」や「その他の法令違反」のリストは、過去3年分の実際の「ネガティブ情報」1250件のデータを基に作り上げたものですが、プログラムを動かすと、（多少微妙な判定（※）もありますが）ほぼ妥当な結果が返ってきます。これにより、「ネガティブ情報」のExcelファイルが、格段と使い易くなります。

（※）特に、営業所の専任技術者を配置しなかったことによる違反と、工事の主任（監理）技術者を配置しなかったことによる違反は全く別物ですが、判定フレーズだけでは層別は難しく、同じ「技術者配置義務に関する違反」としています。

（※）判定結果は「ほぼ妥当」ですが、完全ではありませんので、あくまで目安として使ってください。特に、2つ以上の違反があった場合は、先に発見した違反のみが表示されています。

# PythonによるＷebサイトの自動検索－２

# 国土交通省の「ネガティブ情報等検索サイト」から、一定期間に行政処分を受けた建設業者の情報を収集し、Ｅｘｃｅｌに保存する

# 必要なモジュールを呼び出す
import requests
from bs4 import BeautifulSoup
from datetime import datetime, date, time , timedelta
from dateutil.relativedelta import relativedelta
import os
import pandas as pd
from openpyxl import load_workbook
import re # ★

# 検索結果から情報を抽出したときに格納するリスト
rs_url = [] # ネガティブ情報の「処分詳細URL」
rs_syobun = [] # ネガティブ情報の「処分の内容（詳細）」
rs_riyuu = [] # ネガティブ情報の「処分の原因となった事実」⇒「処分理由」と呼ぶ
rs_gyouhou = [] # ★処分理由が「建設業法違反」の場合の違反となった規定名
rs_sonota = [] # ★処分理由が「その他法令違反」の場合の違反をした法令名

# ★建設業法違反の判定フレーズリスト [x0,[x1],x2] ⇒「処分理由」にx0とx1が共に含まれていれば x2の建設業法違反があったものとみなす
# ★（ X0 1つに対し、x1 は二次元リストの形式で複数のフレーズを指定可能）
x = [['一括',['請'],'一括下請負禁止に関する違反'], # ★
['公衆',['危害','災害'],'公衆災害'],
['施工体制',['偽'],'施工体制台帳に関する違反'],
['施工体系',['偽'],'施工体制台帳に関する違反'],
['再下請',['通知','申請'],'施工体制台帳に関する違反'],
['管理責任者',['許可','配置','届出','欠'],'建設業許可要件に関する違反'],
['所在',['確知','確認','公告'],'建設業許可要件に関する違反'],
['許可',['欠格','偽','更新','届出'],'建設業許可要件に関する違反'],
['役員',['懲役','禁錮'],'建設業許可要件に関する違反'],
['代表者',['死亡'],'建設業許可要件に関する違反'],
['欠格',['事由','暴力団'],'建設業許可要件に関する違反'],
['建設業',['解散'],'建設業許可要件に関する違反'],
['破産',['開始','決定'],'建設業許可要件に関する違反'],
['経営規模',['偽'],'経営事項審査に関する違反'],
['計算書',['偽'],'経営事項審査に関する違反'],
['経営事項',['偽','違反','申請'],'経営事項審査に関する違反'],
['経営事項',['競争','入札','受注'],'入札参加資格審査に関する違反'],
['競争参加',['不正','偽','要件'],'入札参加資格審査に関する違反'],
['入札参加',['不正','偽','要件'],'入札参加資格審査に関する違反'],
['入札',['名義'],'不誠実な入札'],
['契約書',['作成'],'契約書作成義務に関する違反'],
['契約',['書面'],'契約書作成義務に関する違反'],
['技術者',['許可','専任','置','不在','勤務'],'技術者配置義務に関する違反'],
['専任',['置','不在','勤務'],'技術者配置義務に関する違反'],
['施工',['不適合','瑕疵','粗雑'],'不誠実な施工'],
['工事',['不適合','瑕疵','粗雑'],'不誠実な施工'],
['特定建設業',['下請契約'],'一般建設業者限度額に関する違反'],
['許可',['下請契約','金額以上','軽微'],'無許可業者限度額に関する違反'],
['下請',['金額以上','軽微'],'無許可業者限度額に関する違反'],
['許可',['受け'],'建設業許可要件に関する違反'],
['変更',['偽','欠'],'建設業許可要件に関する違反'],
['建設業法',['経過措置','罰金'],'建設業法違反']
]

# ★その他の法令違反の判定フレーズ [y0,y1]⇒「処分理由」にy0が含まれていれば y1の法令違反があったものとみなす
# ★（ y0 はワイルドカード「.*」を指定できるようにしている）
y = [['刑法','刑法違反'], # ★
['独占.*禁止.*法','独占禁止法違反'],
['税.*法','税法違反'],
['会社法','会社法違反'],
['安全衛生法','労働安全衛生法違反'],
['廃棄物.*処理.*法','廃棄物処理法違反'],
['海洋汚染.*防止.*法','海洋汚染防止法違反'],
['建築基準法','建築基準法違反'],
['住宅瑕疵.*履行.*法','住宅瑕疵担保履行法違反'],
['労働者派遣.*法','労働者派遣法違反'],
['出入国管理.*法','出入国管理法違反'],
['道路交通法','道路交通法違反'],
['自動車.*運転.*処罰.*法','自動車運転処罰法違反'],
['船舶安全法','船舶安全法違反'],
['公職選挙法','公職選挙法違反'],
['覚.*剤取締法','覚醒剤取締法違反'],
['大麻取締法','大麻取締法違反'],
['貸金業法','貸金業法違反'],
['盗犯.*防止.*法','盗犯等防止法違反'],
['銃刀.*所持.*法','銃刀法違反'],
['特定商取引.*法','特定商取引法違反'],
['条例','条例違反'],
['公契約.*競売.*妨害','刑法違反（公契約競売入札妨害罪）'],
['公の入札.*刑','刑法違反（公契約競売入札妨害罪）'],
['贈賄','刑法違反（贈賄罪）'],
['賄賂','刑法違反（贈賄罪）'],
['傷害','刑法違反（傷害罪）'],
['暴行','刑法違反（暴行罪）'],
['詐欺','刑法違反（詐欺罪）'],
['業務上過失.*罪','刑法違反（業務上過失致死傷罪）'],
['労働.*災害.*刑','労働安全衛生法違反'],
['労働者.*危険.*防止','労働安全衛生法違反'],
['過失運転.*罪','自動車運転処罰法違反'],
]

# 検索結果を出力するディレクトリ「dir」を指定する
dir = r'C:\Users\......\......\......\......\......'

# 「ネガティブ情報」を検索する検索開始月と検索期間（月数）を設定する
kaisi = '0' # 検索開始月
while len(kaisi) != 6:
kaisi = input('「ネガティブ情報」を検索する開始月を数字6桁で入力してください　yyyymm 形式：')
kikan = 0 # 検索期間（月数）
while kikan<1 or kikan>6:
kikan = int(input('「ネガティブ情報」を検索する期間（月数）を1～6の範囲で入力してください　：'))

# 検索に利用する様々な日付を作成する
fy = kaisi[0:4] # 検索開始年
fm = str(int(kaisi[4:6])) # 検索開始月
fmz = fm.zfill(2) # 検索開始月が1桁の場合は前ゼロを付けて2桁に揃える
ft = date(int(fy),int(fm),1) # 検索開始年月（1日）
tt = ft + relativedelta(months=kikan-1) # (kikan-1)月後の年月（1日）
ty = str(tt.year) # 検索終了年
tm = str(tt.month) # 検索終了月
tmz = tm.zfill(2) # 検索終了月が1桁の場合は前ゼロを付けて2桁に揃える

# 「ネガティブ情報等検索サイト」のドメインのURL「url0」を指定する
url0 = 'https://www.mlit.go.jp/nega-inf/cgi-bin/'

# 「ネガティブ情報等検索サイト」の検索条件を入れたURL「url」を生成する
url = (url0 + 'search.cgi?'
+'jigyoubunya=kensetugyousya' # 建設業者
+'&'+'EID=search'
+'&'+'start_year='+fy+'&'+'start_month='+fm # 検索開始年月
+'&'+'end_year='+ty+'&'+'end_month='+tm # 検索終了年月
+'&'+'disposal_name1='+'&'+'disposal_name2='
+'&'+'reason_con=1'
+'&'+'reason1='+'&'+'reason2='+'&'+'reason3='
+'&'+'shobun='
+'&'+'address='
+'&'+'agency='
)

# 「url」の検索リクエストを送り、検索結果のうち総件数を「r_ken」に格納し、数値としての総件数を「n」とする
r = requests.get(url)
r.raise_for_status()
soup = BeautifulSoup(r.content,'html.parser')
r_ken = soup.find_all(class_='title')
n = int(r_ken[0].text.replace('検索結果：','').replace('件',''))

# 検索結果は、表形式で表示されるので、データフレーム形式で収集して「df」にまとめていく
flag = '0'
p = 0 # 検索結果のページ番号

# 1ページ10件ずつ表示されるので、総件数がn件になるまで「url」にページ番号を付け10件ずつ検索結果を呼び出して収集する
while flag != '1':
p += 1 # ページ番号「p」を1つ増やす

urls = url+'&'+'page='+str(p) # 「url」にページ番号を付けた「urls」を生成する
dfm = pd.read_html(urls,header=0,index_col=None) # 表形式の検索結果を「dfm」に格納する
if p == 1:
df = dfm[0] # 1ページ目（最初の10件）は「dfm」をそのまま「df」とする
else:
df = pd.concat([df,dfm[0]]) # 2ページ目（次の10件）以降は「dfm」を「df」に追記する

# 「urls」の検索リクエストを送り、検索結果のうち「処分詳細」欄にリンクされているURLの情報を10件まとめて「rs_urls」に格納する
r = requests.get(urls)
r.raise_for_status()
soup = BeautifulSoup(r.content,'html.parser')
rs_urls = soup.find_all(class_='overview')

# 「rs_urls」に含まれるURL情報を1件ずつ取り出し、ドメインを付加して「処分詳細URL」の「rsg_url」として生成し、「rs_url」にリスト化する
for i in range(len(rs_urls)):
rsg_url = url0 + rs_urls[i].get('href') # ドメイン「url0」に属性名「href」で取得したディレクトリを付加
rs_url += [rsg_url] # 「処分詳細URL」のリスト

# 「rsg_url」により表示される詳細情報は表形式だが、データフレームとしては適さない形なので、
# 「rsg_url」の検索リクエストを送り、検索結果のうち「処分詳細」の内容を1件分まとめて「rs_texts」として取得し、
# そのうちテキスト部分を「rs_text」として取得する
rs = requests.get(rsg_url)
rs.raise_for_status()
soup = BeautifulSoup(rs.content,'html.parser')
rs_texts = soup.find_all(class_='overview__list')
rs_text = rs_texts[0].text.replace(' ','').replace('　','') # ★

# 「rs_text」のうち「処分の内容（詳細）」を切り分けて「rs_syobun」としてリスト化する
t1 = rs_text.find('処分の内容（詳細）')+len('処分の内容（詳細）') # 「処分の内容（詳細）」開始位置
t2 = rs_text.find('処分の原因となった事実') # 「処分の内容（詳細）」終了位置の1つ先
rs_syobun += [rs_text[t1:t2]] # 「処分の内容（詳細）」のリスト

# 「rs_text」のうち「処分の原因となった事実（=処分理由）」を切り分けて「rs_riyuu」としてリスト化する
t3 = t2+len('処分の原因となった事実') # 「処分の原因となった事実」開始位置
t4 = rs_text.find('その他参考となる事項') # 「処分の原因となった事実」終了位置の1つ先
rg_riyuu = rs_text[t3:t4] # ★
rs_riyuu += [rg_riyuu] # ★「処分理由」のリスト

# ★「処分理由」にその他の法律違反の判定フレーズ（y0）があれば y1を「rs_sonota」としてリスト化する
rg_sonota = '－' # ★
for j in range(len(y)): # ★
reg = re.compile(y[j][0]) # ★
if reg.search(rg_riyuu) != None: # ★
rg_sonota = y[j][1] # ★
break # ★
rs_sonota += [rg_sonota] # ★「その他の法律違反」のリスト

# ★「処分理由」にその他の法令違反の判定フレーズ（y0）がなかった場合は、
# ★「処分理由」に建設業法違反の判定フレーズ（x0 かつ x1）があれば x2を「rs_gyouhou」としてリスト化する
rg_gyouhou = '－' # ★
if rg_sonota == '－': # ★
for j in range(len(x)): # ★
if x[j][0] in rg_riyuu: # ★
for k in range(len(x[j][1])): # ★
if x[j][1][k] in rg_riyuu: # ★
rg_gyouhou = x[j][2] # ★
break # ★
else: # ★
continue # ★
break # ★
rs_gyouhou += [rg_gyouhou] # ★「建設業法違反」のリスト

# 「df」の行数が総件数「n」になった段階で while～文を脱する
if df.shape[0] >= n:
flag = '1'

# 「df」から「処分詳細」の列を削除する（リンク情報を取り出した後は有益な情報がないため）
df = df.drop('処分詳細',axis=1)

# ★「df」に新しい列として「処分の内容（詳細）」「処分理由」「建設業法違反」「その他法令違反」「詳細URL」を設け、収集してリスト化した各データを追加する
df.insert(5,'処分の内容（詳細）',rs_syobun,True)
df.insert(6,'処分理由',rs_riyuu,True)
df.insert(7,'建設業法違反',rs_gyouhou,True) # ★
df.insert(8,'その他法令違反',rs_sonota,True) # ★
df.insert(9,'詳細URL',rs_url,True) # ★

# 「df」をExcelファイルとして出力する
nam = '国交省ネガティブ情報'+fy+fmz+'～'+ty+tmz+'.xlsx'
path = os.path.join(dir,nam)
df.to_excel(path,sheet_name='建設業者',index=False)

# Excelシートの列幅を修正する
col = [['A',20], # 列番号（アルファベット）と列幅の組合せをリスト化
['B',12],
['C',14],
['D',14],
['E',10],
['F',20],
['G',20],
['H',20],
['I',20], # ★
['J',20] # ★
]
wb = load_workbook(path)
ws = wb.active
for i in range(len(col)):
ws.column_dimensions[col[i][0]].width = col[i][1]
wb.save(path)

# 実行が成功したら結果を画面表示する
print('パス '+path+' でファイルを保存しました')

検索開始年月を 202204 検索期間を 6（ヶ月）とした場合の実行結果のExcelファイルは次のとおりです。

6ヶ月間の検索で数分掛かります。なお、「商号又は名称」、「主たる営業所の所在地」及び「処分理由」は、差し障りがあるのでここでは見えないようにしています。

〇 日本語の”あいまい検索”

〇日本語の”あいまい検索”