12/27/2025

エロストラかくかたりき。(エロ漫画のためにタグは生まれた。)①

表記ゆらぎを制する者が検索を制す

—— 本サイトにおける「タグ正規化」と「ファセット分類」へのアプローチ

・フォークソノミーの限界と「検索の分断」

Web上の同人ショップにおけるタグ付けは、「タクソノミー (専門家分類)」と違い、ユーザーや登録者が自由に言葉を選ぶ「フォークソノミー(民衆分類)」に近い性質を持っています。

これは自由度が高い反面、サイトごとに独自の文化(方言)を生み出します。

例えば、あるサイトでは「メガネ」、別のサイトでは「眼鏡っ子」、またある場所では単に「眼鏡」と表記されます。

…あなたはどの眼鏡でしょう?

さて…これをそのままデータベースに取り込むとどうなるか。

ユーザーが「メガネ」というクエリ(語彙)で検索した際、「眼鏡っ子」タグしか持たない作品が検索結果から漏れてしまう…

すなわち「検索の分断(Silencing)」が発生します。

”どーじんらうんじ”では、この問題を解決し、サイト間の壁を取り払うために「Synonym Dictionary(同義語辞書)」を用いた名寄せシステムを採用しています。

内容開示は以下になります。

多種多様な「生のタグ(Raw Tags)」を、システム側で管理された「統制語彙(Controlled Vocabulary)」へと変換する2層構造のシステムです。

入力(Raw Data): 作者様がサイト様の情報に付加し、収集された多種多様なタグ(例:"眼鏡っ子", "黒縁めがね", "メガネ")

処理(Normalization): tag_synonyms 辞書と照合。

出力(Master Key): システム内で定義された正規化タグ "メガネ" (ID: 105) に統一。

これは情報学において「シソーラス(類語辞典)構築」と呼ばれるプロセスであり、表記ゆらぎ(Synonym)を一つの代表語(Preferred Term)に集約することで、検索精度を劇的に向上させます。

…次回!エロの掛け算!の巻!!