iron-blogger/scan-feeds.py

#!/usr/bin/python
import yaml
import feedparser
import datetime
import sys
import os
from dateutil.parser import parse
import dateutil.tz as tz

with open('bloggers.yml') as f:
    users = yaml.safe_load(f.read())

if not os.path.exists('out'):
    os.makedirs('out')
try:
    with open('out/report.yml') as f:
        log = yaml.safe_load(f.read())
except IOError:
    log = {}

START = datetime.datetime(2011, 12, 25, 0)

def parse_published(pub):
    try:
        return parse(pub).astimezone(tz.tzlocal()).replace(tzinfo=None)
    except:
        return parse(pub).replace(tzinfo=None)
def get_date(post):
    for k in ('published', 'created', 'updated'):
        if k in post:
            return post[k]

def get_link(post):
    return post.link

def parse_feeds(weeks, uri):
    feed = feedparser.parse(uri)

    print >>sys.stderr, "Parsing: %s" % uri

    if not feed.entries:
        print >>sys.stderr, "WARN: no entries for ", uri
    for post in feed.entries:
        date = parse_published(get_date(post))

        if date < START:
            continue
        wn = (date - START).days / 7

        while len(weeks) <= wn:
            weeks.append([])

        post = dict(date=date,
                    title=post.title,
                    url=get_link(post))
        if post['url'] not in [p['url'] for p in weeks[wn]]:
            weeks[wn].append(post)

if len(sys.argv) > 1:
    for username in sys.argv[1:]:
        weeks = log.setdefault(username, [])
        for l in users[username]['links']:
            parse_feeds(weeks, l[2])
else:
    for (username, u) in users.items():
        weeks = log.setdefault(username, [])
        for l in u['links']:
            parse_feeds(weeks, l[2])

with open('out/report.yml', 'w') as f:
    yaml.safe_dump(log, f)
Make all the scripts executable. 2009-12-29 18:37:40 +00:00			`#!/usr/bin/python`
Initial reporting script 2009-12-28 23:09:11 +00:00			`import yaml`
			`import feedparser`
			`import datetime`
scan-feeds: Warn if we can't find someone's entries. 2010-01-18 03:45:33 +00:00			`import sys`
if out-dir does not exist, it will be created 2012-01-19 19:03:49 +00:00			`import os`
Initial reporting script 2009-12-28 23:09:11 +00:00			`from dateutil.parser import parse`
			`import dateutil.tz as tz`

			`with open('bloggers.yml') as f:`
			`users = yaml.safe_load(f.read())`

if out-dir does not exist, it will be created 2012-01-19 19:03:49 +00:00			`if not os.path.exists('out'):`
			`os.makedirs('out')`
scan-feeds: Import feeds into the same file. This allows me to accumulate feeds over time in case someone's blog is down at any given moment. 2010-01-19 15:52:29 +00:00			`try:`
			`with open('out/report.yml') as f:`
			`log = yaml.safe_load(f.read())`
			`except IOError:`
			`log = {}`
Initial reporting script 2009-12-28 23:09:11 +00:00
added timezone error handling changed start date 2012-01-19 18:32:24 +00:00			`START = datetime.datetime(2011, 12, 25, 0)`
Initial reporting script 2009-12-28 23:09:11 +00:00
			`def parse_published(pub):`
added timezone error handling changed start date 2012-01-19 18:32:24 +00:00			`try:`
			`return parse(pub).astimezone(tz.tzlocal()).replace(tzinfo=None)`
			`except:`
			`return parse(pub).replace(tzinfo=None)`
Initial reporting script 2009-12-28 23:09:11 +00:00			`def get_date(post):`
scan-feeds: Support more timestamp formats 2010-02-15 20:30:33 +00:00			`for k in ('published', 'created', 'updated'):`
			`if k in post:`
			`return post[k]`
Initial reporting script 2009-12-28 23:09:11 +00:00
			`def get_link(post):`
Use the 'link' field to get a link from feeds. 2010-01-03 16:25:21 +00:00			`return post.link`
Initial reporting script 2009-12-28 23:09:11 +00:00
			`def parse_feeds(weeks, uri):`
			`feed = feedparser.parse(uri)`
added timezone error handling changed start date 2012-01-19 18:32:24 +00:00
			`print >>sys.stderr, "Parsing: %s" % uri`

scan-feeds: Warn if we can't find someone's entries. 2010-01-18 03:45:33 +00:00			`if not feed.entries:`
			`print >>sys.stderr, "WARN: no entries for ", uri`
Initial reporting script 2009-12-28 23:09:11 +00:00			`for post in feed.entries:`
			`date = parse_published(get_date(post))`

			`if date < START:`
			`continue`
			`wn = (date - START).days / 7`

			`while len(weeks) <= wn:`
			`weeks.append([])`
scan-feeds: Import feeds into the same file. This allows me to accumulate feeds over time in case someone's blog is down at any given moment. 2010-01-19 15:52:29 +00:00
			`post = dict(date=date,`
			`title=post.title,`
			`url=get_link(post))`
			`if post['url'] not in [p['url'] for p in weeks[wn]]:`
			`weeks[wn].append(post)`
Initial reporting script 2009-12-28 23:09:11 +00:00
scan-feeds: Accept a list of users 2010-05-24 19:21:03 +00:00			`if len(sys.argv) > 1:`
			`for username in sys.argv[1:]:`
			`weeks = log.setdefault(username, [])`
			`for l in users[username]['links']:`
			`parse_feeds(weeks, l[2])`
			`else:`
			`for (username, u) in users.items():`
			`weeks = log.setdefault(username, [])`
			`for l in u['links']:`
			`parse_feeds(weeks, l[2])`
Initial reporting script 2009-12-28 23:09:11 +00:00
Move build products into out/ 2009-12-28 23:24:22 +00:00			`with open('out/report.yml', 'w') as f:`
Initial reporting script 2009-12-28 23:09:11 +00:00			`yaml.safe_dump(log, f)`