読者です 読者をやめる 読者になる 読者になる

シリーズ判定最適化前線

https://amakan.net/ では書籍のシリーズ判定に日夜取り組んでおり、ここで最近追加された変更を紹介します。

シリーズ判定とは

先にシリーズ判定の課題について説明しておくと、まず書籍タイトルからシリーズ名を抽出したいという問題があります。似たような本の集合を見つけるのは簡単ですが、集合に名前が付けられて、かつルールが明確であることが求められます。そこで、シリーズ名を集合の名前かつ検索キーワードとして利用することでこれを解決します。

また、巻ごとに表記揺れした書籍タイトルからも同じシリーズ名を抽出したいという問題があります。ミスった場合、同じシリーズ名が抽出されず、別のシリーズが作成され、複数のシリーズに分割されてしまうという問題があります。書籍名はバイトが表紙を見ながら手入力しているのではないかという精度なので、大体表記揺れしています。

以前 「Kyoto.なんか #2」というイベントで、amakanにおける書籍のシリーズ判定方法について話しました - ✘╹◡╹✘ という記事も書いたのでこちらもご覧ください。判定されたシリーズの活用例として amakanでKindle Unlimitedの上位100件を集めた - ✘╹◡╹✘ などがあります。

CHANGELOG

詳しくは https://github.com/amakan/amakanize をご覧ください。直近では「第六大陸」などと戦っています (末尾の陸が漢数字の六なのでミスって削り取られている)。