четверг, 10 марта 2011 г.

Кто я такой и чем занимаюсь

Думаю здесь уместно написать как так получилось, что у меня на сегодня есть в активе, пожалуй, проекты всех возможных тематик и сервисов – от собственного счетчика посещений и системы статистики, который работает уже 9-й год и по функционалу не уступает всем популярным системам, до поисковой системы, от сайта знакомств – социальной сети, до сайта по недвижимости.

Наверное, единственное чего я за свою жизнь еще не делал это порно сайты и web-почту, и хорошо, т.к. первые мне претят с моральной точки зрения, в том числе, как способ заработка, а вторые по той причине что их уже море и шансов вывести свою систему практически нет.
Началось все примерно в 2002 году, когда я еще был студентом МатМеха СПбГУ.

вторник, 8 марта 2011 г.

Немного про проектирование баз данных


Без базы данных, даже без нескольких кардинально разных, такой проект невозможен. Поэтому немного посвящу времени этому вопросу.

Итак как минимум будет нужна БД обслуживающая обычные «плоские» данные – т.е. некоторому идентификатору ID ставится в соответствие поле данных.
Почему поле данных я рассматриваю одно? Потому что:
  1. выборка производится только по полю ID – поиск по данным не производится. Для этого есть специализированные индексы – иначе с такими количествами информации толку будет мало
  2. любое количество полей можно упаковать в одно, для этого я "на коленке" создал набор небольших прикладных библиотек, в частности при упаковке сохраняется CRC данных, чтобы не использовать не дай бог битые
Если не задаваться задачей минимизации кол-ва строк кода работы с данными и немного удобством, то почти любую задачу можно свести к другой, где эти пункты будут достаточны.

понедельник, 28 февраля 2011 г.

Поисковые технологии или о чем этот блог


Когда-то давно взбрела мне в голову идея: написать свой собственный поисковик. Было это очень давно, тогда я еще учился в ВУЗе, мало чего знал про технологии разработки больших проектов, зато отлично владел парой десятков языков программирования и протоколов, да и сайтов своих к тому времени было понаделано много.

Ну есть у меня тяга к монструозным проектам, да…

В то время про то, как они работают было известно мало. Статьи на английском и очень скудные. Некоторые мои знакомые, которые были тогда в курсе моих поисков, на основе нарытых и мной и ими документов и идей, в том числе тех, которые родились в процессе наших споров, сейчас делают неплохие курсы, придумывают новые технологии поиска, в общем, эта тема дала развитие довольно интересным работам. Эти работы привели в том числе к новым разработкам разных крупных компаний, в том числе Google, но я лично прямого отношения к этому не имею.

На данный момент у меня есть собственный, обучающийся поисковик от и до, со многими нюансами – подсчетом PR, сбором статистик-тематик, обучающейся функцией ранжирования, ноу хау в виде отрезания несущественного контента страницы типа меню и рекламы. Скорость индексации примерно полмиллиона страниц в сутки. Все это крутится на двух моих домашних серверах, и в данный момент я занимаюсь масштабированием системы на примерно 5 свободных серверов, к которым у меня есть доступ.