ブログの本文を抽出

Pythonでブログの本文を抽出するプログラムを書いてみました．

句読点が多い div が本文であると判断します．

これだと長いコメントがある場合はそっちを抽出してしまいますが，気にしません．

それもブログの一部ということで…



#-*- coding:utf-8 -*-

#scraping blog text
import re

filename = "blog.txt"

end_mark = ["。", "、", "！", "．", "，", "？"]
f = open(filename, 'r')

div = 0

div_max = 0
while(1):

    line = f.readline()

    if(line==""):

        break

    tab = re.compile("div") #divの先頭に"<"を足してください

    start = str(tab.search(line))

    if(start!='None'):

        div_max += 1

f.close()
text = [""]*div_max

num = [0]*div_max

max_sum = 0

max_line = ""
f = open(filename, 'r')
while(1):

    line = f.readline()

    if(line==""):

        break

    tab = re.compile("div") #divの先頭に"<"を足してください

    start = str(tab.search(line))

    tab = re.compile("div") #divの先頭に"')

body = p.sub('', max_line)

print body
f.close()