Русские базы синонимов
1. База из словаря Абрамова
2 Другая база
3. Сборка в виде сиквел-дампа (третья)
Откровенно говоря, все базы - отстой. Видимо, придется озаботиться вопросом притаривания платной базы
- 10 Каментов »
- 22 Июнь 2009, написал Timp
Сюда обычно чего-то пишут. Но меня ломает...
1. База из словаря Абрамова
2 Другая база
3. Сборка в виде сиквел-дампа (третья)
Откровенно говоря, все базы - отстой. Видимо, придется озаботиться вопросом притаривания платной базы
Колдунства для анализа нагрузки веб-сервера. писал для борьбы с ДДОСами, но пригодится и в более мирных случаях.
Число процессов Apache:
ps aux | grep httpd |wc -l
Число коннектов на 80 порт:
netstat -na | grep :80 | wc -l
То же, в статусе SYN
netstat -na | grep :80 | grep syn
Пример SYN-флуда:
netstat -na | grep :80 | grep SYN | wc -l 767
Посмотреть много ли разных IP:
netstat -na | grep :80 | grep SYN | sort -u | more
На какой домен чаще всего идут запросы:
tcpdump -npi eth0 port domain
Статус Apache:
apachectl status
Посмотреть откуда IP:
whois xxx.xxx.xxx.xxx
или
jwhois xxx.xxx.xxx.xxx
С какого IP сколько запросов:
netstat -na | grep :80 | sort | uniq -c | sort -nr | more
Рано или поздно возникает необходимость слепить кучку самoнаполняемых говносайтов. Причин может быть несколько - это желание срубить трафа на ряде СЧ/НЧ, монетизировавшись контекстом, либо использовать их для ссылочного ранжирования (как своих сайтов, так и для продажи ссылок на биржах).
Wordpress поможет нам в этом. Нужно прикрутить к нему:
- Wp-o-matic для граббинга чужих полных лент на соответствующую тематику (пихаем его в крон, крон на сервере должен быть разрешен. Не надо ставить выполнение тасков целый час, достаточно пяти минут. А то серверу вашему будет не очень хорошо);
- Wp-page-numbers для того, чтобы было побольше страниц и улучшилась внутренняя перелинковка;
- Simple-tags и YARPP для той же цели;
Ну и наконец надо обеспечить уникальность контента.
Варинат 1 - берем яхо-трубу и делаем с ее помощью перевод не-русскоязычных лент. Получается почти нечитаемая, но очень уникальная херня.
Вариант 2 - грабим русские ленты (ну или американские, если сайт туда таргетирован) и прикучиваем к wp-o-matic плагин unikalizator. Для автоматической синонимизации надо в файле wpomatic.php нужно найти функцию insertPost, и заменить строку
‘post_content’ => $content,
на сторку
‘post_content’ => unikalizator_do_action ($content),
Текст получается немного более читаемый, но менее уникальный. Английский текст более читаемый, чем русский, после синонимизации, это связано с особенностями языка.
Уникализатору нужны словари синонимов, мои лежат тут.
С правильными словарями проблема. Во первых, их толком нет. Во вторых, толстые словари загружать не очень хорошо, поскольку работа с ними некисло кушает ресурсы веб-сервера. Но и чем больше словарь, тем менее читаемый получается текст (хотя и более уникальный).