【2024年7月29日】TOPPANと熊本大学は、熊本大学が永青文庫から寄託を受けている歴史資料『細川家文書(ほそかわけもんじょ)』のうち、専門家でも解読が困難な難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)をAI-OCRを使い解読。約950万文字のテキストデータの生成に成功した。
さらに、くずし字資料の解読システムと連動するキーワード検索システムを構築することにより、江戸時代前期の細川藩領国(小倉領40万石から熊本領54万石)の、約90年間にわたるあらゆる社会的事件や統治制度の変容を示す記述を含んだ資料を即時に検索収集できるようになった。
「くずし字AI-OCR」は、OCR(Optical Character Recognition)とは光学文字認識のことで、文書画像に含まれる文字を読み取り、テキストデータに変換するソフトウェアの総称。TOPPANグループでは2013年から高精度のテキストデータを提供する「高精度全文テキスト化サービス」を展開してきた。
今回「くずし字AI-OCR」による解読と「検索システム」が一体になり、これまでくずし字の解読が障壁となっていた古文書など一次史料への網羅的調査が容易になった。検索により発見した資料を研究者が精査し、先行研究や定説との照合を行うことで、新たな発見や、歴史学をはじめとしたさまざまな分野への一次史料の活用を促進する。
解読した古文書は、『細川家文書』のうち、「奉行所日帳」「奉書」「御国御書案文」「方々への状控」など合計約5万枚。
また、くずし字AI-OCRにより作成したテキストデータに対して、今回「地震、大雨、洪水、虫、飢、疫」などの災害に関連するキーワードで検索・調査を実施したところ300件以上の記述を発見した。
その中には、知られざる自然災害、疫病流行や飢饉など、歴史学・地域防災研究において重要な資料も含まれる。
今後、熊本大学とTOPPANは、『細川家文書』の解読と分析を進め、江戸時代の社会史研究の通時的深化に貢献するとともに、新しく発見された災害関連の記録を活用することで、現代における防災意識の醸成、防災計画の策定等にも活用を目指す。
熊本大学永青文庫研究センター
https://eisei.kumamoto-u.ac.jp/
TOPPAN
https://www.toppan.com/ja/
「ふみのは」について
https://www.toppan.com/ja/joho/fuminoha/
永青文庫 細川護光理事長
永青文庫には、大名細川家に蓄積された室町時代以来の史料が伝来しています。信長や秀吉をはじめとする天下人から受給した文書群は、すでに国重要文化財に指定されていて、ひろく知られていますが、近世藩政史料群は、なにぶん分量が膨大で、文字のくずし方も時代や書き手によって多様であるため、いまだごく一部分が利用されているに過ぎません。この「くずし字AI-OCR」技術の発達には目をみはるものがあり、藩政史料の内容が学界さらに社会で本格的に活用される呼び水となることを期待します。
Copyright © 2025 プリント&プロモーション . ALL Rights Reserved.