依云's Blog

6
27
2013

使用 SQLite3 的第三方扩展来修改火狐历史记录中的 URL

在火狐 17 以前，我可以这样子访问我本地的 Python 文档的：

jar:file:///home/lilydjwg/docs/Python/python.zip!/index.html

访问的实际上是一个 zip 文件中的内容。网页这种纯文本的东西压缩率高，35M 的 Python 3.3 文档，压缩后只有 7.1M。一来节省磁盘空间（我的 /home 分区己用 98% 了 TwT），二来读取快。

可是，自从火狐 17 开始，虽然 jar: 协议依旧支持，但是似乎其中的部分或者全部 JavaScript 脚本不会被执行。最明显的是，Python 这种用 Sphinx 制作的文档的搜索功能没了！

在拒绝升级火狐很长一段时间之后，Arch 把火狐 16 要用的库文件升级了……于是只好换回未压缩的一大堆文件。可问题是，我以前在火狐地址栏输入re就有 Python 正则表达式模块的文档的补全、输入py m就有 Python 标准库模块列表的补全，地址转换后，这些历史记录里的地址就全失效啦。

现在想想，其实我可以使用 Redirector 插件搞定的。但当时没想到，也是想更根本地解决问题，便直接修改火狐的地址记录数据库了。

此数据库是 SQLite3 数据库，位于火狐配置目录下的places.sqlite3文件中。moz_places表中记录了历史记录和书签中的项目的 URL 地址，只修改它就可以了。但问题是，这不像我当初 MediaWiki URL 路径中去掉index.php那样，用replace函数就可以搞定：

UPDATE OR REPLACE moz_places SET url = REPLACE(url, '/index.php', '') WHERE url LIKE 'http://localhost/wiki/index.php/%';

我需要正则表达式！

于是找到了这个 glib_replace 模块，支持使用 glib 的正则表达式来进行替换。下回来编译成 .so 文件后这样子用：

SELECT load_extension('./glib_replace.so');
UPDATE OR REPLACE moz_places SET url = regex_replace('^jar:((?:.(?![^/]+\.zip!))+)(/[^/]+)\.zip!(.*)$', url, '\1\2\3') WHERE url LIKE 'jar:file:///home/lilydjwg/docs/Python/python%';

跑完就好啦！

PS: 如果你的 URL 中有 % 字符，记得在 like 操作符参数中转义成 %% 哦～

参考链接

The Places database | MDN

Category: 火狐 | Tags: 正则表达式火狐 sqlite3

5
25
2013

给 Python 的正则匹配限制执行时间

看到这个标题，你也许会想，这个需要限制么？不是很快就出来结果了么？

感谢 Just Great Software，虽然我没买它的产品，但是其说明书（可免费下载）中的正则教程详细地论述了这点。所以我在自己的 xmpptalk 机器人中一直不敢接受用户输入的正则表达式。引述其中的一句话：「People with little regex experience have surprising skill at coming up with exponentially complex regular expressions.」（不太懂正则的人经常能令人惊奇地写出指数级复杂度的正则。）

但很不幸，我从这里抄到的匹配网址的正则就有这种问题。在将其的修改版给我的 XMPP 机器人 Lisa 使用后，Lisa 两次被含有括号的链接搞到没响应……

所以，如果要使用用户输入的正则，我必须限制其匹配时间。方法也很简单——使用信号就可以了。当 Python 在匹配正则时如果收到信号，会转而调用信号处理器，然后再接着匹配。如果信号处理器抛出了异常，那么此异常会传播到调用正则匹配的地方，从而中断匹配操作。

示例如下：

#!/usr/bin/env python3

import re
# import regex as re
import signal

def timed_out(b, c):
  print('alarmed')
  raise RuntimeError()

signal.signal(signal.SIGALRM, timed_out)
signal.setitimer(signal.ITIMER_REAL, 0.1, 0)
s = '<aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa>'
r = re.compile(r'''(?:<(?:[^<>]+)*>)+b''')
try:
  r.findall(s)
except RuntimeError:
  print('time exceeded')

被注释掉的那句是调用mrab-regex-hg这个正则引擎的；它不会回溯时出这种问题。

优化下代码，写成库方便使用（使用了TimeoutError，所以适用于 Python 3.3+）：

import contextlib
import signal

@contextlib.contextmanager
def execution_timeout(timeout):
  def timed_out(signum, sigframe):
    raise TimeoutError

  old_hdl = signal.signal(signal.SIGALRM, timed_out)
  old_itimer = signal.setitimer(signal.ITIMER_REAL, timeout, 0)
  yield
  signal.setitimer(signal.ITIMER_REAL, *old_itimer)
  signal.signal(signal.SIGALRM, old_hdl)

Category: python | Tags: linux python 正则表达式

| Theme: Aeros 2.0 by TheBuckmaker.com

依云's Blog

Happy coding, happy living!

使用 SQLite3 的第三方扩展来修改火狐历史记录中的 URL

参考链接

给 Python 的正则匹配限制执行时间

随机文章

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明

依云's Blog

Happy coding, happy living!

使用 SQLite3 的第三方扩展来修改火狐历史记录中的 URL

参考链接

给 Python 的正则匹配限制执行时间

随机文章

标签云

最新评论

最新留言

链接

计数器

存档

功能

RSS

权利声明