Ну вот, моя первая программа на эрланге. https://github.com/onokhov/erlang_web_crawler/
Язык занятный. Параллелить и устраивать межпроцессное общение просто. Но остальное писать неудобно, думаю, что просто с непривычки. И документацию я ещё не прочитал. Осилил только getting_started, описания модулей string, list, re, httpc и ещё некоторых.
Сторонние модули использовать не хотелось, поэтому то, что в штатных модулях не нашел, делал сам.
Сравнил по производительности с перловой качалкой, эрланговская получилась немного быстрее. За минуту с форума glav.su перловая вытянула 26МБ, а эрланговская 26,7МБ.
Хотелось бы критики по коду от людей эрланг знающих.
Update: Закоммитил правки по комментариям. Заменены паттерны, ++ заменен на [|], использованы list comprehensions.
Update 2: Отказ от prespawn. И правки по стилю
Update 3: Багфикс в receive_text_data/2. Правки по стилю
- Многопоточная качалка на Erlang
crawler(Url, NumWorkers) when NumWorkers >= 1 ->
inets:start(),
ssl:start(),
FreeWorkerPids = [ spawn(crawler, worker, [self()]) || _ <- lists:seq(1, NumWorkers) ],
% SDELANO IZMENENIJE GLOBALJNOGO SOSTOJANIJA, novyje processy, novyje sluzhby.
...
...
...
crawler([], [Url], FreeWorkerPids, [], [], Host)
...
.
crawler([], [], FreeWorkerPids, _SeenUrls, _UrlsInProgress, Host) ->
[ exit(Pid, stop) || Pid <- FreeWorkerPids ],
ssl:stop(),
inets:stop()
% OBRATNOJE IZMENENIJE GLOBALJNOGO SOSTOJANIJA
.
dve vzaimosvjazannyje akcii drug bez druga nikuda, lezhat v raznyx funkcijax.
nado tak:
crawler(Url, NumWorkers) when NumWorkers >= 1 ->
inets:start(),
ssl:start(),
FreeWorkerPids = [ spawn(crawler, worker, [self()]) || _ <- lists:seq(1, NumWorkers) ],
...
crawler([], [Url], FreeWorkerPids, [], [], Host)
...
[ exit(Pid, stop) || Pid <- FreeWorkerPids ],
ssl:stop(),
inets:stop()
.
crawler([], [], _FreeWorkerPids, _SeenUrls, _UrlsInProgress, Host) ->
file:remove(...).
a crawler/5 sozdajot fajl i on zhe jego udaljajet.
i chitatj legche, vse eti "start()" i "stop()" chitajuca kak skobki svojego roda.