ブログの本文を抽出

Pythonでブログの本文を抽出するプログラムを書いてみました.



句読点が多い div が本文であると判断します.



これだと長いコメントがある場合はそっちを抽出してしまいますが,気にしません.

それもブログの一部ということで…




#-*- coding:utf-8 -*-
#scraping blog text

import re
filename = "blog.txt"
end_mark = ["。", "、", "!", ".", ",", "?"]

f = open(filename, 'r')
div = 0
div_max = 0

while(1):
line = f.readline()
if(line==""):
break
tab = re.compile("div") #divの先頭に"<"を足してください
start = str(tab.search(line))
if(start!='None'):
div_max += 1
f.close()

text = [""]*div_max
num = [0]*div_max
max_sum = 0
max_line = ""

f = open(filename, 'r')

while(1):
line = f.readline()
if(line==""):
break
tab = re.compile("div") #divの先頭に"<"を足してください
start = str(tab.search(line))
tab = re.compile("div") #divの先頭に"')
body = p.sub('', max_line)
print body

f.close()