Start: load/save data dynamically from git (WIP)

tYp0
Rename scan-feeds to blogbot
2023-12-28 23:05:28 +01:00 · 2023-12-28 23:03:06 +01:00 · 2023-12-28 23:00:34 +01:00
5 changed files with 125 additions and 88 deletions
--- a/.gitignore
+++ b/.gitignore
@ -2,3 +2,4 @@
 *.pyc
 settings.cfg
 out/
 data/
--- a/2
+++ b/2
@ -6,4 +6,4 @@ RUN pip install --no-cache-dir -r requirements.txt
 COPY . .
-CMD [ "python", "./scan-feeds.py" ]
+CMD [ "python", "./blogbot.py" ]
--- a/blogbot.py
+++ b/blogbot.py
@ -0,0 +1,121 @@
 #!/usr/bin/python3
 import yaml
 import feedparser
 import datetime
 import sys
 import os
 import shutil
 import re
 from dateutil.parser import parse
 import dateutil.tz as tz
 import settings
 from git import Repo
 def parse_published(pub):
    try:
        return parse(pub).astimezone(tz.tzlocal()).replace(tzinfo=None)
    except:
        return parse(pub).replace(tzinfo=None)
 def get_date(post):
    for k in ('published', 'created', 'updated'):
        if k in post:
            return post[k]
 def get_link(post):
    return post.link
 def get_title(post):
    if 'title' in post:
        return post.title
    else:
        return ''
 def remove_html_tags(txt):
    p = re.compile(r'<[^<]*?/?>')
    return p.sub('', txt)
 def remove_extra_spaces(txt):
    p = re.compile(r'\s+')
    return p.sub(' ', txt)
 def create_extract(txt):
    stxt = remove_extra_spaces(remove_html_tags(txt))
    if len(stxt) < 250:
        return stxt
    if stxt.rfind('. ',200,250)>0:
        return stxt[:stxt.rfind('. ',200,250)+1]+" [...]"
    if stxt.rfind('! ',200,250)>0:
        return stxt[:stxt.rfind('! ',200,250)+1]+" [...]"
    if stxt.rfind('? ',200,250)>0:
        return stxt[:stxt.rfind('? ',200,250)+1]+" [...]"
    if stxt.rfind(', ',200,250)>0:
        return stxt[:stxt.rfind(', ',200,250)+1]+" [...]"
    if stxt.rfind(' ',200,250)>0:
        return stxt[:stxt.rfind(' ',200,250)]+" [...]"
    return stxt[:250]+"[...]"
 def parse_feeds(weeks, username, blog):
    feedparser.USER_AGENT = "IronBloggerBot/0.2 +http://ironblogger.de/"
    uri = blog[3]
    feed = feedparser.parse(uri)
    if not feed.entries:
        print("WARN: no entries for ", uri, file=sys.stderr)
    for post in feed.entries:
        date = parse_published(get_date(post))
        if date < START:
            continue
        key = date.strftime("%Y-%m-%d")
        weeks.setdefault(key, [])
        post = dict(date=date,
                    title=get_title(post),
                    url=get_link(post),
                    username=username,
                    blogname=blog[0],
                    description=create_extract(post.description))
        if post['url'] not in [p['url'] for p in weeks[key]]:
            weeks[key].append(post)
 config=settings.load_settings()
 if os.path.exists('data'):
    shutil.rmtree('data')
 gitrepo = Repo.clone_from('https://git.wazong.de/iron-blogger/content-society.git', 'data')
 with open('data/bloggers.yml') as f:
    users = yaml.safe_load(f.read())
 if not os.path.exists('data/out'):
    os.makedirs('data/out')
 try:
    with open('data/out/report.yml') as f:
        log = yaml.safe_load(f.read())
 except IOError:
    log = {}
 START = datetime.datetime.strptime(config['start_date'],'%Y/%m/%d')
 if len(sys.argv) > 1:
    for username in sys.argv[1:]:
        blogs = log.setdefault(username, {})
        for l in users[username]['links']:
            parse_feeds(log, username, l)
 else:
    for (username, u) in list(users.items()):
        if 'end' in u:
            enddate = datetime.datetime.strptime(u['end'],'%Y/%m/%d')
            if enddate < datetime.datetime.now():
                print("User inactive: ", username)
                continue
        for l in u['links']:
            parse_feeds(log, username, l)
 with open('data/out/report.yml', 'w') as f:
    yaml.safe_dump(log, f)
--- a/requirements.txt
+++ b/requirements.txt
@ -1,3 +1,4 @@
 pyyaml
 feedparser
-python-dateutil
+python-dateutil
 GitPython
--- a/scan-feeds.py
+++ b/scan-feeds.py
@ -1,86 +0,0 @@
 #!/usr/bin/python3
 import yaml
 import feedparser
 import datetime
 import sys
 import os
 from dateutil.parser import parse
 import dateutil.tz as tz
 import settings
 config=settings.load_settings()
 with open('bloggers.yml') as f:
    users = yaml.safe_load(f.read())
 if not os.path.exists('out'):
    os.makedirs('out')
 try:
    with open('out/report.yml') as f:
        log = yaml.safe_load(f.read())
 except IOError:
    log = {}
 START = datetime.datetime.strptime(config['start_date'],'%Y/%m/%d')
 def parse_published(pub):
    try:
        return parse(pub).astimezone(tz.tzlocal()).replace(tzinfo=None)
    except:
        return parse(pub).replace(tzinfo=None)
 def get_date(post):
    for k in ('published', 'created', 'updated'):
        if k in post:
            return post[k]
 def get_link(post):
    return post.link
 def parse_feeds(weeks, uri):
    feedparser.USER_AGENT = "IronBloggerBot/0.2 +http://ironblogger.de/"
    feed = feedparser.parse(uri)
    if not feed.entries:
        print("WARN: no entries for ", uri, file=sys.stderr)
    for post in feed.entries:
        date = parse_published(get_date(post))
        if date < START:
            continue
        wn = int ( (date - START).days / 7 )
        while len(weeks) <= wn:
            weeks.append([])
        if 'title' in post:
            post = dict(date=date,
                        title=post.title,
                        url=get_link(post))
        if 'title' not in post:
            post = dict(date=date,
                        title="",
                        url=get_link(post))
        if post['url'] not in [p['url'] for p in weeks[wn]]:
            weeks[wn].append(post)
 if len(sys.argv) > 1:
    for username in sys.argv[1:]:
        blogs = log.setdefault(username, {})
        for l in users[username]['links']:
            weeks = blogs.setdefault(l[0], [])
            parse_feeds(weeks, l[3])
 else:
    for (username, u) in list(users.items()):
        if 'end' in u:
            enddate = datetime.datetime.strptime(u['end'],'%Y/%m/%d')
            if enddate < datetime.datetime.now():
                print("User inactive: ", username)
                continue
        blogs = log.setdefault(username, {})
        for l in u['links']:
            weeks = blogs.setdefault(l[0], [])
            parse_feeds(weeks, l[3])
 with open('out/report.yml', 'w') as f:
    yaml.safe_dump(log, f)
Author	SHA1	Message	Date
Thomas Renger	b091d20bf3	Start: load/save data dynamically from git (WIP)	2023-12-28 23:05:28 +01:00
Thomas Renger	512619b214	tYp0	2023-12-28 23:03:06 +01:00
Thomas Renger	3c4eeed4c0	Rename scan-feeds to blogbot	2023-12-28 23:00:34 +01:00
`@ -6,4 +6,4 @@ RUN pip install --no-cache-dir -r requirements.txt`

	`COPY . .`	`COPY . .`

	`CMD [ "python", "./scan-feeds.py" ]`	`CMD [ "python", "./blogbot.py" ]`