はてだBlog(仮称)

私的なブログど真ん中のつもりでしたが、気づけばWebサイト系のアプリケーション開発周りで感じたこと寄りの自分メモなどをつれづれ述べています。2020年6月現在、Elasticsearch、pandas、CMSなどに関する話題が多めです。...ですが、だんだんとより私的なプログラムのスニペット置き場になりつつあります。ブログで述べている内容は所属組織で販売している製品などに関するものではなく、また所属する組織の見解を代表するものではありません。

前処理の前処理

spaCyのMatcherについて(spaCyで日本語ホットワード抽出の真似事再び)

はじめに 以前の記事でspaCyで手探りで遊んでみました。 itdepends.hateblo.jp また、これを受けて、PhraseMatcherを少し試してみましたというのが次の記事です。 itdepends.hateblo.jp 上記2つの上の方の記事では、PhraseMatcherとともに、spaCyのMatcherの…

spaCyのPhraseMatcherを変わり種のあいまい検索やgrepとして使ってみる(ための試し打ちをした)

はじめに 以前の記事でspaCyで手探りで遊んでみました。 itdepends.hateblo.jp 記事の中で、spaCyのPhraseMatcherの名前にふれていましたが、今回、実際にPhraseMatcherを試してみたというメモです。 spaCyのPhraseMatcher さて、そのspaCyのPhraseMatcherで…

spaCy2.3の日本語標準対応にのっかってホットワード抽出の真似事(ただし候補ワード・フレーズ抜き出しまで)

spaCyがver 2.3になって、デフォルトで日本語に対応したようです。 spacy.io ということで、何日か前に、GiNZAスゲーとなった感謝の気持ちは忘れないながらも、フリーライダーな私としては、裸のspaCy2.3に乗り換えて、まずは雰囲気を掴んでみようということ…

pandas.read_htmlでぶち抜きtableタグに関する今更の気づき

pandas.read_htmlについて、rowspanやcolspanで実現されているぶち抜き表についても、よろしく整然データとしてのDataFrameに変換できるということを知ったので、その感想です。 pandas.read_htmlについて pandas.read_htmlはhtml中のtableに特化したスクレ…

Webサイトのアクセスログのよくあるかもしれない集計パターンの自分用覚書(Python/Pandas関連)

Webサイトのアクセスログの集計のワンライナーのようなものについては、かつてはいろいろ思うところがありました。 思うというか苦しめられておりました。 しかし、いまや 自分が語るには、この世界が発展・複雑化しすぎており、世界の片隅でのひとりごとと…

Elasticsearchにlivedoorレストランデータセットを取り込んでみる(Pandasで全文検索向けにプレデータ加工あり)

Elasitcsearchで「全文検索」寄りでいろいろ遊んでみようと思うと、程よい公開データが欲しくなります。 そんなデータの一例として、livedoorレストラン DataSetというのがありますので、こちらを利用させてもらって勉強するというのも一つの手かと思います…

Pandas番外編(strアクセサなど再発見)

Pandasのアクセサ、特にstrアクセサについては、シンタックスの外面がやや特殊に感じておおりました。 よって、挙動になれるまではどこまでOKなのかわかりにくいので、気持ちのどこかで利用をさけていたのですが、ある時期以降は宣言的にロジックを書けるの…

Pythonの集合演算の演算子チートシート風の何か

Pythonでの集合演算の演算子(和、差、積...)のチートシートです。 ひとつずつではなく、一覧の絵にしてみたところがウリですが、言語仕様の焼き直しなのでそれ以上のものではありません。あしからず。 ◆確認用コピペ用 s1 = {1,2,3,4,5} s2 = {1,2,3,4,5} …