—— 本サイトにおける「タグ正規化」と「ファセット分類」へのアプローチ
・フォークソノミーの限界と「検索の分断」
Web上の同人ショップにおけるタグ付けは、「タクソノミー (専門家分類)」と違い、ユーザーや登録者が自由に言葉を選ぶ「フォークソノミー(民衆分類)」に近い性質を持っています。
これは自由度が高い反面、サイトごとに独自の文化(方言)を生み出します。
例えば、あるサイトでは「メガネ」、別のサイトでは「眼鏡っ子」、またある場所では単に「眼鏡」と表記されます。
…あなたはどの眼鏡でしょう?
さて…これをそのままデータベースに取り込むとどうなるか。
ユーザーが「メガネ」というクエリ(語彙)で検索した際、「眼鏡っ子」タグしか持たない作品が検索結果から漏れてしまう…
すなわち「検索の分断(Silencing)」が発生します。
”どーじんらうんじ”では、この問題を解決し、サイト間の壁を取り払うために「Synonym Dictionary(同義語辞書)」を用いた名寄せシステムを採用しています。
内容開示は以下になります。
多種多様な「生のタグ(Raw Tags)」を、システム側で管理された「統制語彙(Controlled Vocabulary)」へと変換する2層構造のシステムです。
入力(Raw Data): 作者様がサイト様の情報に付加し、収集された多種多様なタグ(例:"眼鏡っ子", "黒縁めがね", "メガネ")
処理(Normalization): tag_synonyms 辞書と照合。
出力(Master Key): システム内で定義された正規化タグ "メガネ" (ID: 105) に統一。
これは情報学において「シソーラス(類語辞典)構築」と呼ばれるプロセスであり、表記ゆらぎ(Synonym)を一つの代表語(Preferred Term)に集約することで、検索精度を劇的に向上させます。
…次回!エロの掛け算!の巻!!