タイトルのセルか、データのセルか、列見出しか行見出しか・・などを推定するための素性を設定するで。
とりあえず、以下にしたで。
x座標,y座標の算出に使うセルの原点は左上としてるで。
- width
- height
- x
- y
- x座標(%)
- y座標(%)
- 面積
- 面積(%)
- セルの4隅の座標
- セルの文字の種類
- セルの文字そのもの
[width,height]
セルの横幅と縦幅。何も整形しない。
[x,y]
横から何個目、縦から何個目といった値。
問題点があって、認識されないような小さいセルは無視するから実際のものとxがズレるんやなあ。yはズレへんけど。
あと、エクセル画像が2枚以上の時は、1枚目の最後のyを引き継ぐで。
[x座標,y座標(%)]
セルの左上の座標をwidth,heightで割った値。
これはちょっとした整形処理を行ってるんや。
例えば、3枚のエクセル画像があって、それぞれ100%,30%,100%埋まってるとする。つまり、2枚目は下2/3が空白の画像って事。
このとき、100%,100%,30%と解釈して、y座標は一番下のセルまでが100%として算出されるで! だから、一番下のセルは画像に空白があっても絶対99%とかいう値になるって事や!
ええ感じやな!
[面積]
これはセルの面積そのままな。
[面積(%)]
これはセルの面積を、すべての画像の面積で割った値や。めっちゃ小さい値になるわ。
[セルの4隅の座標]
これもy座標算出のときと同じように、白紙のスペースは埋める処理をやっとるで。
それ以外の整形はしてないで。
[セルの文字の種類]
空白か文字か数字か、やな。
どの素性が分類に活きてくるかはわからんから、とりあえず思いつくものは全部とっといたで。 もっと他にも良さげな素性ないかなあ・・。なんかある気がするんよな。