pandas.read_htmlでぶち抜きtableタグに関する今更の気づき

Pandas python 前処理の前処理弱いエンジニアリング検索サイト BeautifulSoup Pandas他で前捌き(ちょっとEDA)

pandas.read_htmlについて、rowspanやcolspanで実現されているぶち抜き表についても、よろしく整然データとしてのDataFrameに変換できるということを知ったので、その感想です。 pandas.read_htmlについて pandas.read_htmlはhtml中のtableに特化したスクレ…

2020-06-02

Elasticsearchにlivedoorレストランデータセットを取り込んでみる(Pandasで全文検索向けにプレデータ加工あり)

Elasticsearch Elasticsearch6.x ソフトウェアの話かもしれない前処理の前処理自分用まとめ Pandas Pandas他で前捌き(ちょっとEDA)

Elasitcsearchで「全文検索」寄りでいろいろ遊んでみようと思うと、程よい公開データが欲しくなります。そんなデータの一例として、livedoorレストラン DataSetというのがありますので、こちらを利用させてもらって勉強するというのも一つの手かと思います…

2020-05-20

diffの変種っぽい視点で見るPandasのイディオム

手段を問わないソフトウェアテスト自分用まとめ Pandas python Pandas他で前捌き(ちょっとEDA)

はじめに PandasのEDAに便利な部分を、データチェックに見立てて利用すると、目的外使用かもしれないけど、便利かも？という視点でのPandasのイディオムの寄せ集めです。（よって、そう思って見なければ、Pandasの中途半端な入門例未満の断片集だったりし…

2020-05-10

Pandas（他）のEDA前によく使う（かもしれない）私的前処理スニペット集

Pandas python 自分用まとめ Pandas他で前捌き(ちょっとEDA)

はじめにデータサイエンス的な世界に限らずですが、本処理以上に「前処理」が勝負というところがあります。ここで、「本格的な『前処理』の更に前段の『前処理』が必要になった」という経験はありませんか。まあ、単なる言葉遊びに過ぎないところもありま…

2020-02-12

Python/Pandas演習（dictでグループ化相当）

100本ノック系 Pandas python 弱いエンジニアリング自分用まとめ Pandas他で前捌き(ちょっとEDA)

Python/Pandasにはgroupbyの機能があるのですが、少しトリッキーなグループ化を考えてみたメモです。複雑な名寄せ・グループ化のニーズ何かの集計や名寄せの際に、複数のキーやキー自体がネストされた構造化データ相当のデータで名寄せしたいということは…

2020-02-09

1対Nのデータを結合してネストオブジェクトのJSON Lines出力のイディオム(Python/ Pandas) my 手グセ紹介

100本ノック系 python Pandas 自分用まとめ Pandas他で前捌き(ちょっとEDA)

たまたま自分のまわりだけかもしれませんが、次項に示した例のように、1対Nのデータを結合してネストオブジェクトのJSON Lines出力をざっくりで良い精度でやってしまいたいという例にしばしば遭遇します。ブームの時に手グセになっていたり、その案件でガチ…

2020-02-03

ほとんど何もしないディレクトリ同期風 Pythonプログラムの例

100本ノック系 python 弱いエンジニアリング昔話 Pandas他で前捌き(ちょっとEDA)

はじめに例えば、自分の中ではあるあるなのですが、静的HTML*1のサイトのデータについてある要素を一括書き換えする...みたいなニーズがあります。 CMSやなんらかの仕掛けによりあっさり完了ということも多いでしょうが、一方、そうでないこともやはり少な…

2020-02-02

静的HTMLサイトの画像が規約にしたがっているかチェック(Python / os.path.commonpath) と昔話

100本ノック系 Pandas python CMS BeautifulSoup 自分用まとめ昔話 Pandas他で前捌き(ちょっとEDA)

はじめに Pythonの次のライブラリ/便利メソッドの簡単な紹介です。 BeautifulSoup4のfind_allであるhtmlの全てのimgタグとそのsrc属性の抜き出し urllib.parse.urljoin（こちらの記事https://itdepends.hateblo.jp/entry/2020/02/02/142148) os.path.commonp…

2020-01-30

BeutifulSoupでお手軽DOMツリーのテキスト出力

100本ノック系 python 弱いエンジニアリング検索サイト BeautifulSoup CMS Pandas他で前捌き(ちょっとEDA)

はじめに Python、BeautifulSoupふと思い出し企画です。 Pythonのスクレイピングライブラリである、BeutifulSoup4 についてオレオレ切り口でちょっとだけふれています。 BeautifulSoup4やScrapyというキーワードで言うと、スクレイピングやそもそものクロー…