データ圧縮
情報処理においてのデータの圧縮という技術は日々進化している.
パソコンを使用している人ならば圧縮という言葉を一度は聞いたことがあるのではないだろうか?
データの圧縮は大きく可逆圧縮と非可逆圧縮の二つに分けられる.
可逆圧縮 : 元のデータと同じものを復元することができる圧縮法
- 可逆圧縮の例としてはzip,rarなどが挙げられる.これらの圧縮は一般的に広く使用されており,圧縮したデータが情報を損なうことはない.
非可逆圧縮 : 元のデータを復元することはできない圧縮法
- 非可逆圧縮の例としてはjpg,mp3などが挙げられる.主に元のデータから人間が読み取れないような情報を削減し,データ量を減らす.例えばmp3は「人間がどう聞こえるか?」という点に着目し,聞き取りづらい音などを元のデータから削除している.
研究室ではどちらも研究がおこなわれているが,ここでは可逆圧縮についてもう少し説明を加える.
可逆圧縮はモデル化と符号化から構成されている.
モデル化 : 圧縮対象のデータをどのように表現するか?
符号化 : 上記のモデルをパソコンに保存するためにどのように表現するか?
可逆圧縮の代表的な例として連長圧縮がある.
文字列辞典でアルゴリズムの確認や実際に動かすことが可能なのでそちらも見ていただきたい.文字列辞典
圧縮では対象のデータの冗長性をうまく表現できるモデルを考えることが非常に重要となる.
これは,知識発見(データマイニング)とも密接に関係があり,機械学習にも関連がある.
我が研究室ではこのモデルとして文脈自由文法を選択したSLPや,ラムダ式を選択した高階圧縮などが研究されている.
圧縮業界の近年では圧縮された状態からのデータの操作についての研究も盛んにおこなわれている.