はてだBlog(仮称)

私的なブログど真ん中のつもりでしたが、気づけばWebサイト系のアプリケーション開発周りで感じたこと寄りの自分メモなどをつれづれ述べています。2020年6月現在、Elasticsearch、pandas、CMSなどに関する話題が多めです。...ですが、だんだんとより私的なプログラムのスニペット置き場になりつつあります。ブログで述べている内容は所属組織で販売している製品などに関するものではなく、また所属する組織の見解を代表するものではありません。

kuromojiプラグインのkuromoji_part_of_speechのspeechの一覧

私はどちらかといえば、Elasticsearchのkuromojiプラグインのkuromoji_part_of_speech についてはデフォルトのままで(つまり、stoptagsの設定は特に行わない)で良いのではないかと考えている派です。

が、当然ですが、案件ややりたいことによる訳で、なにかとコンパクトにするために名詞だけでいいやといった場合には、除外の設定を行うことになると思います。

この時、品詞の除外の設定は、除外するものを全て並べる必要があるのと、設定上は、名詞でいうと30種類サブ分類にあたるものがあるので、最初の一発とはいえ、多少試行錯誤が必要な場合は少し煩わしいです。

ということで、

github.com

から抜き出した、kuromojiのデフォルトのstoptagsの設定を俯瞰しやすいように表にまとめました。

また、ついでに、名詞を残すとしたら、動詞・形容詞・副詞といった助詞等のデフォルト除外および名詞を除外したものを残すとしたらでチェックをつけました。

上記のgithubの「#△」以外、「#」を含まない行を抜き出せばすぐ抜き出せる範囲ですが、Elasticsearchのsettings.analysis.filter.your_filter_name.stoptagsに貼り付ける手間を少し軽減できるかなと思って書き出してみました。

コピペ間違いなどありましたらごめんなさい。

項番 大分類 (A)デフォルト除外 (B)名詞のみ (C)デフォルト除外と名詞除外 フィルター
1 その他 x x x "その他-間投",
2 その他 "その他",
3 その他 x x x "フィラー",
4 その他 x "感動詞",
5 記号 "記号-アルファベット",
6 記号 x x x "記号-一般",
7 記号 x x x "記号-括弧開",
8 記号 x x x "記号-括弧閉",
9 記号 x x x "記号-句点",
10 記号 x x x "記号-空白",
11 記号 x x x "記号-読点",
12 記号 x x x "記号",
13 形容詞 x "形容詞-自立",
14 形容詞 x "形容詞-接尾",
15 形容詞 x "形容詞-非自立",
16 形容詞 x "形容詞",
17 語断片 x "語断片",
18 助詞 x x x "助詞-格助詞-一般",
19 助詞 x x x "助詞-格助詞-引用",
20 助詞 x x x "助詞-格助詞-連語",
項番 大分類 デフォルト除外 名詞のみ デフォルト除外と名詞除外 フィルター
21 助詞 x x x "助詞-格助詞",
22 助詞 x x x "助詞-間投助詞",
23 助詞 x x x "助詞-係助詞",
24 助詞 x x x "助詞-終助詞",
25 助詞 x x x "助詞-接続助詞",
26 助詞 x x x "助詞-特殊",
27 助詞 x x x "助詞-副詞化",
28 助詞 x x x "助詞-副助詞",
29 助詞 x x x "助詞-副助詞/並立助詞/終助詞",
30 助詞 x x x "助詞-並立助詞",
31 助詞 x x x "助詞-連体化",
32 助詞 x x x "助詞",
33 助動詞 x x x "助動詞",
34 接続詞 x x x "接続詞",
35 接頭詞 x "接頭詞-形容詞接続",
36 接頭詞 x "接頭詞-数接続",
37 接頭詞 x "接頭詞-動詞接続",
38 接頭詞 x "接頭詞-名詞接続",
39 接頭詞 x "接頭詞",
40 動詞 x "動詞-自立",
項番 大分類 デフォルト除外 名詞のみ デフォルト除外と名詞除外 フィルター
41 動詞 x "動詞-接尾",
42 動詞 x "動詞-非自立",
43 動詞 x "動詞",
44 非言語音 x x x "非言語音",
45 副詞 x "副詞-一般",
46 副詞 x "副詞-助詞類接続",
47 副詞 x "副詞",
48 未知語 "未知語",
49 名詞 x "名詞-サ変接続",
50 名詞 x "名詞-ナイ形容詞語幹",
51 名詞 x "名詞-一般",
52 名詞 x "名詞-引用文字列",
53 名詞 x "名詞-形容動詞語幹",
54 名詞 x "名詞-固有名詞-一般",
55 名詞 x "名詞-固有名詞-人名-一般",
56 名詞 x "名詞-固有名詞-人名-姓",
57 名詞 x "名詞-固有名詞-人名-名",
58 名詞 x "名詞-固有名詞-人名",
59 名詞 x "名詞-固有名詞-組織",
60 名詞 x "名詞-固有名詞-地域-一般",
項番 大分類 デフォルト除外 名詞のみ デフォルト除外と名詞除外 フィルター
61 名詞 x "名詞-固有名詞-地域-国",
62 名詞 x "名詞-固有名詞-地域",
63 名詞 x "名詞-固有名詞",
64 名詞 x "名詞-数",
65 名詞 x "名詞-接続詞的",
66 名詞 x "名詞-接尾-サ変接続",
67 名詞 x "名詞-接尾-一般",
68 名詞 x "名詞-接尾-形容動詞語幹",
69 名詞 x "名詞-接尾-助数詞",
70 名詞 x "名詞-接尾-助動詞語幹",
71 名詞 x "名詞-接尾-人名",
72 名詞 x "名詞-接尾-地域",
73 名詞 x "名詞-接尾-特殊",
74 名詞 x "名詞-接尾-副詞可能",
75 名詞 x "名詞-接尾",
76 名詞 x "名詞-代名詞-一般",
77 名詞 x "名詞-代名詞-縮約",
78 名詞 x "名詞-代名詞",
79 名詞 x "名詞-動詞非自立的",
80 名詞 x "名詞-特殊-助動詞語幹",
81 名詞 x "名詞-特殊",
82 名詞 x "名詞-非自立-一般",
83 名詞 x "名詞-非自立-形容動詞語幹",
84 名詞 x "名詞-非自立-助動詞語幹",
85 名詞 x "名詞-非自立-副詞可能",
86 名詞 x "名詞-非自立",
87 名詞 x "名詞-副詞可能",
88 名詞 x "名詞",
89 連体詞 x x "連体詞",

(B) 名詞のみ(コピペ用あえての1行バージョン)

"stoptags": [
"その他-間投", "フィラー", "感動詞",    "記号-一般",    "記号-括弧開", "記号-括弧閉", "記号-句点",    "記号-空白",    "記号-読点",    "記号",   "形容詞-自立", "形容詞-接尾", "形容詞-非自立",  "形容詞",    "語断片",    "助詞-格助詞-一般",  "助詞-格助詞-引用",  "助詞-格助詞-連語",  "助詞-格助詞", "助詞-間投助詞",  "助詞-係助詞", "助詞-終助詞", "助詞-接続助詞",  "助詞-特殊",    "助詞-副詞化", "助詞-副助詞", "助詞-副助詞/並立助詞/終助詞",  "助詞-並立助詞",  "助詞-連体化", "助詞",   "助動詞",    "接続詞",    "接頭詞-形容詞接続",    "接頭詞-数接続",  "接頭詞-動詞接続",   "接頭詞-名詞接続",   "接頭詞",    "動詞-自立",    "動詞-接尾",    "動詞-非自立", "動詞",   "非言語音", "副詞-一般",    "副詞-助詞類接続",   "副詞",   "連体詞"
]

(C)デフォルト除外と名詞除外

"stoptags":[
"その他-間投", "フィラー", "記号-一般",    "記号-括弧開", "記号-括弧閉", "記号-句点",    "記号-空白",    "記号-読点",    "記号",   "助詞-格助詞-一般",  "助詞-格助詞-引用",  "助詞-格助詞-連語",  "助詞-格助詞", "助詞-間投助詞",  "助詞-係助詞", "助詞-終助詞", "助詞-接続助詞",  "助詞-特殊",    "助詞-副詞化", "助詞-副助詞", "助詞-副助詞/並立助詞/終助詞",  "助詞-並立助詞",  "助詞-連体化", "助詞",   "助動詞",    "接続詞",    "非言語音", "名詞-サ変接続",  "名詞-ナイ形容詞語幹", "名詞-一般",    "名詞-引用文字列",   "名詞-形容動詞語幹",    "名詞-固有名詞-一般",   "名詞-固有名詞-人名-一般",    "名詞-固有名詞-人名-姓",   "名詞-固有名詞-人名-名",   "名詞-固有名詞-人名",   "名詞-固有名詞-組織",   "名詞-固有名詞-地域-一般",    "名詞-固有名詞-地域-国",   "名詞-固有名詞-地域",   "名詞-固有名詞",  "名詞-数",   "名詞-接続詞的",  "名詞-接尾-サ変接続",   "名詞-接尾-一般", "名詞-接尾-形容動詞語幹", "名詞-接尾-助数詞",  "名詞-接尾-助動詞語幹",    "名詞-接尾-人名", "名詞-接尾-地域", "名詞-接尾-特殊", "名詞-接尾-副詞可能",   "名詞-接尾",    "名詞-代名詞-一般",  "名詞-代名詞-縮約",  "名詞-代名詞", "名詞-動詞非自立的",    "名詞-特殊-助動詞語幹",    "名詞-特殊",    "名詞-非自立-一般",  "名詞-非自立-形容動詞語幹",  "名詞-非自立-助動詞語幹", "名詞-非自立-副詞可能",    "名詞-非自立", "名詞-副詞可能",  "名詞",   "連体詞"
]

参考リンク

参考にさせていただきました。

qiita.com