文字列処理

文字とは?

コンピュータにとって文字とは、単なる「記号」です。

それ自体は何の意味も持たない単なる「記号」です。コンピュータは意味を理解していない

人間がその「記号」や「記号の列(文字列)」に意味を持たせることによって初めて、普段我々が話したり、書いたり、読んだりする時に使われる「言葉」や「言語」と呼ばれるものになります。

しかし、赤ちゃんや外国人のように、その言葉の意味を理解できない人にとって、文字は「言葉」ではなく、ただの「記号」でしかありません。

コンピュータ にとっても同じことです。

コンピュータは一見すると、とても賢く、どんな言語の意味でも理解していると思うでしょう。

しかし、実はコンピュータは、「言葉」を単なる「記号」としてしか認識していません。


文字列処理とは?

文字列処理とは、「記号の列(文字列)」に対して「言葉」としての意味を考えずに検索や分類、パターン発見などを行うことを言います。

意味を考えないというのであれば、コンピュータが扱うありとあらゆるデータは「文字列(記号列)」とみなすことができます。

文章が書いてあるテキストデータはもちろん、メロディやリズムを音階や音符といった「記号」で表した音楽データ、色や配置の情報を数値という「記号」で持っている画像データや動画データなど、コンピュータで扱うありとあらゆるものが「文字列」データとして扱うことができます。

篠原研究室では、文字列処理を用いた様々なアルゴリズムや計算量に関する研究を行っています


何に使えるのか?

文字列処理技術は様々な分野で応用がされています。最も身近なところで言えば、ワードやインターネットでの検索技術などがあります。その他にも、

・大量のデータから有益な情報を探し出すデータマイニング

・各種データの類似度計算や類似度によるデータ分類

・音楽の特徴をとらえる音楽情報処理

・DNAや塩基配列やアミノ酸配列などを対象にしたバイオインフォマティクス

・データのサイズを減らすデータ圧縮技術

などなど様々な応用技術があります。