Pythonを使った特許解析：IPC活用(1)

Python基礎

2022.05.29

Pythonのpandasはデータの解析に有用なツールである。今回は、国際特許分類（IPC）の整理をpandasで行い、特許解析に役立てたい。その前準備として、国際特許分類（IPC）について調べて、まとめてみた。

※本記事は2022年5月現在の情報に基づき作成しています。（情報としては古いですがアーカイブとして残しています。）

国際特許分類（IPC）について
PythonによるIPC整理の考え方

国際特許分類（IPC）について

Wikipediaによると、国際特許分類（International Patent Classification、IPC）とは、世界知的所有権機関（WIPO）が管理する国際的の取り決められた特許分類のルールによって作られている。特許のIPCを見れば、その特許が何に関する発明かわかるので、特許解析をする上では非常に重要である。日本語版のIPCは特許庁のホームページからダウンロードできる。

　ダウンロードは、IPC分類表は、特許庁webページの「国際特許分類（IPC）について」から、ダウンロードページから行える。

　IPC分類は以下のような包含関係で示される。例えば、H01M 10/052のIPC分類の場合、先頭のHは「電気」のセクション記号を示す。さらにHセクションの中で、H01は「基本的電気素子」を示す。また、その中で、H01Mは「電池」のような、「電気エネルギーを直接変換する方法や手段」を示す。さらに、H01M 10は「二次電池」を示す。その／（スラッシュ）以下はサブグループを示し、サブグループは２桁から６桁の数字で示される。サブグループの中で、H01M 10/052は「リチウムイオン電池」を示すが、前に「・・」がついており、それは、前の「・」のH01M 10/05に包含関係にあることを示す。

PythonによるIPC整理の考え方

　ここでは、特許庁のページからダウンロードできるIPC分類表をPythonを使って整理し、IPCを入力したら、そのセクション、クラス、サブクラス、メイングループおよびサブグループを返すような関数を作ることを目標としてみる。

　IPCは頻繁にアップデートされるので、特許庁のHPからダウンロードできるExcelファイルから直接IPCの変換データが作成できるようにしたい。特許庁からダウンロードできるExcelファイルは、脚注や索引などの分類データ以外の情報も含まれているため、ExcelファイルからPandasで読み出すだけでは、きれいな分類表は作れない。また、クラスからサブグループまでの各階層が一様に列挙されているので、その行がどの階層の情報かの見極めが必要である。さらに、サブグループの「・」の数で示される包含関係も考えたい。

　ここでは、HセクションのExcelのデータをPandasで読み出し、IPC分類を整理してみることにする。

Pythonを使った特許解析：IPC分類活用(2)に続く。