Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет dima_i ([info]dima_i)
@ 2013-05-12 13:35:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
URL-matching regex
In case anybody needs it: here is a URL-matching regex, which is a modification of this one (surprisingly, I could not find good solutions on the web, and that was the best one I found). It seemed to have a minor bug, which is hopefully fixed in my version.

in python notation:

urlmatch=re.compile(ur'''(?i)\b(https?:// [^\s()<>]+
(?: \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) [^\s()<>]*)*
( ( \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) ) |
[^\s`!()\[\]{};:\'".,<>?\xab\xbb\u201c\u201d\u2018\u2019] ))''', re.X)


It only searches for URLs starting with "http://" or "https://" and with only two levels of nested brackets. If you need a more intelligent regex detecting strings like "www.example.com", you can use the beginning from the original code. Let me know if you find any examples where this regex fails.


(Читать комментарии) - (Добавить комментарий)


[info]meshko.livejournal.com
2013-05-15 06:47 (ссылка)
Как тебе такая идея -- искать до пробела, а потом если в конце есть непонятные символы типа пунктуации, то пробовать их по одному отбрасывать и посылать запрос, пока получишь 200.
У меня такое эстетическое соображение: если уж писать сложное, то с целью покрыть 99% случаев. А писать сложное для 90 или даже 95% обидно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]dima_i
2013-05-15 11:52 (ссылка)
Ну я как бы не считаю, что вышеприведенный regex -- сложное, скорее наоборот. Твоя идея очень хороша, но требует посылать запрос, что в мою исходную посылку не входило.

(Ответить) (Уровень выше)


(Читать комментарии) -