ブログの本文を抽出
Pythonでブログの本文を抽出するプログラムを書いてみました.
句読点が多い div が本文であると判断します.
これだと長いコメントがある場合はそっちを抽出してしまいますが,気にしません.
それもブログの一部ということで…
#-*- coding:utf-8 -*-
#scraping blog textimport re
filename = "blog.txt"
end_mark = ["。", "、", "!", ".", ",", "?"]f = open(filename, 'r')
div = 0
div_max = 0while(1):
line = f.readline()
if(line==""):
break
tab = re.compile("div") #divの先頭に"<"を足してください
start = str(tab.search(line))
if(start!='None'):
div_max += 1
f.close()text = [""]*div_max
num = [0]*div_max
max_sum = 0
max_line = ""f = open(filename, 'r')
while(1):
line = f.readline()
if(line==""):
break
tab = re.compile("div") #divの先頭に"<"を足してください
start = str(tab.search(line))
tab = re.compile("div") #divの先頭に""を足してください end = str(tab.search(line)) if(start!='None'): #push div += 1 text[div] += line if(end!='None'): #pop for mark in end_mark: num[div] += text[div].count(mark) if(max_sum')
body = p.sub('', max_line)
print bodyf.close()