[Comm] using statistical fingreprints for charset autodetect

Nick S. Grechukh =?iso-8859-1?q?ngrechukh_=CE=C1_ua=2Efm?=
Пт Мар 4 23:21:03 MSK 2005


On Friday 04 March 2005 13:18, Nick S. Grechukh wrote:
> > > xcode/enca на cp1251 "Би-2"  говорят koi8 и делают из него "аХ-2". 
>>хотя с другой стороны если детектить не один тэг а всю пачку сразу...
> > А ты поштучно?
> так интереснее. вообще-то реализовал оба варианта, по крайней мере UTF8 в
> >Приколист...
> именно ;-) жастфорфан и все такое, заодно и C научился (блин, обленившись
> до админа, уже и забыл кайф программирования. третью ночь не сплю ;-)). а
> еще попробую статистику пар заюзать, как в xmms.
всех интересующихся автоугадавами прошу потестить:
http://gns-linux.narod.ru/autougadaf-0.2.tar.bz2
типа нейросеть, достаточно слова в две-три-четыре буквы.

два варианта баз: юзать для этого москва-петушки уже немодно, есть на выбор 
статистика по Олегу Дивову (4Мб), или по "избранным изречениям  Дзен" (7кб).
первое по идее надежнее, зато второе концептуальнее ;-).
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип     : application/pgp-signature
Размер  : 190 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/community/attachments/20050304/728c40ca/attachment-0003.bin>


Подробная информация о списке рассылки community