PAGE TOP

頓活

印刷する

文書管理とブロックチェーン

さぼ郎
月がとっても青いから~

頓活

昨日の月は黄色に見えました。

この歌は、1955年だそうです。昭和30年。



ところで、
「ブロックチェーン」と言えば「ビットコイン」ということになります。これを分散型台帳技術(Distributed Ledger Technology、DLT)とも呼ぶようです。

英語の直訳ですね。ビットコインでは取引データを「トランザクション」と呼び、そのトランザクションを集めてブロックにして暗号化し

その辺のことは、詳しい定義や経緯はあまり知らないので他を参照してください。

また、ブロックチェーンについても用語の定義は定まっていないとのことです。

しかし、本やネットを見る限りの情報からすると、
トランザクションと呼ばれる取引データを適宜集めてブロックにする
ブロックは一つ前のブロックによって決まる部分を含めて暗号化してある
ノードと呼ばれる複数のポイントが同じデータを保持している

と、こんな感じと思います。さらに、大きく分けて2つのタイプがあります。それは「パブリック」か「プライベート」かという類型になります。

ビットコインは明らかに「パブリック」で、しかも貨幣に換算できる価値を公開しているため「ナンス」と呼ばれる無駄な計算をすることで、各ノードに競争をさせることで、セキュリティを確保していますが、「プライベート」なら、この無意味な計算は不要になります。

ワードクラフトが作った文書管理システム「iDMS」は、
インターネットを使っていること
データベースを使っていること
により、いわば中央集権的な文書管理システムを構築し、大規模な文書管理システムとして提供していますが、ブロックチェーンに注目することで、閉塞した環境でも手軽に使用できるシステムを作ろうということで、「暗号化テキスト技術」による、文書管理システムを構築中です。

このようなチェーン技術は、実はCADなどのデータ構造に近似します。CADなどではルートは配列が用意されており、その個々の配列を「レイヤー」と呼びます。

データの要素をメモリー空間(ヒープ)に確保したアドレスでチェーンにしていきます。要するに前後のアドレスとデータの性質を表す構造体(ストラクチャー)で構成するデータ構成と、ブロックチェーンは、ほぼ同じ構造と言えます。

頓活

頓活

ほとんど同じ構造であることが分かります。

大きな違いは「改ざん」をいかに防止するかになりますが、それは、複数保持することと、暗号化(AESとハッシュ)によって対処することで、対応は可能だと考えています。

複数保持に関しては「P2P」、ピア・ツー・ピアという技術によって全てのノードが同じデータを保有する事になっていますが、ビットコインの革新的技術である「プルーフ・オブ・ワーク」と「ピア・ツー・ピア」にはいささか疑問(問題?)があるので、これを回避した考えで構築することとしました。

「文書管理」といえば、対象は文書ファイルになります。文書ファイルがいつ作られて、どういうタイトルで、どの組織が保有していて、どこにしまってあって、いつ廃棄するのかなどは、全て台帳化できるデータです。

場所を移したり、あるいは、書庫に移管されたり、さらには廃棄されたりしていくわけですが、その都度、同じデータ番号でデータを生成していけば、最終データが、現状を表していることになります。

これを暗号化テキストをブロックにして「next」をハッシュで生成したファイル名でつないでいけば、CADとほとんど同じ構成で作ることができるわけです。

このメリットは、データベースがいらないことです。共用しているファイルサーバーかNASがあれば、そこにデータフォルダを作ることでテキストファイルを置くだけで使用が可能になります。

また、アマゾンのAWSが提供している「S3」というストレージを、仮想的にドライブにすれば、ワールドワイドで共用することも可能になります。

頓活

データベースソフトがいらないこと。中央集権ではあるかも知れないけれど、利用者が終了するタイミングでバックアップすれば、使用者が増えるほどに複製もたくさんできるわけで、共用ストレージの故障、悪意ある改ざんがあったとしても全てのバックアップを破壊することは難しくなりますから、データベースを利用するよりは遥かに安全だと言えます。

問題は速度になりますが、かつてと違って、CPUも強力になり、メモリーも潤沢にあるわけですので、あえて集合理論で組み合わせて作るクエリーのような負荷の高い処理をしなくても工夫次第で解決がつくように思えます。

以前のテストでは1400万件のテキストデータをカウントするだけでは4秒程度です。その1400万件の7表のクロス集計で約75秒でした。

1企業の文書ファイル数が書き換え含めて1万件を超えるとも思えません。これを暗号化したりハッシュでつないだりしても、3秒以内の応答は十分に可能だと考えています。

ともかく作ってみてからの評価が愉しみです。



キーワード