JoHnY napsal: |
Takže vážení, práve sa mi podarilo totálne rozbi? diakritiku v celej databáze. Neviem si to vysvetli? lebo som menil akurát default charset pre mysql demon a s databázou som ni? nerobil. Zálohu som mazal tesne pred tým, s tým že idem robi? novú.
Týmto sa všetkým ospravedl?ujem a fakt neviem ?o mám robi?, ale napravi? sa to nedá (( |
JoHnY napsal: |
Takže vážení, práve sa mi podarilo totálne rozbiť diakritiku v celej databáze. Neviem si to vysvetliť lebo som menil akurát default charset pre mysql demon a s databázou som nič nerobil. Zálohu som mazal tesne pred tým, s tým že idem robiť novú.
Týmto sa všetkým ospravedlňujem a fakt neviem čo mám robiť, ale napraviť sa to nedá (( |
navsteva napsala: |
Tak nevim, jak jsou na tom ostatni bezni uzivatele, ale pro me jsou slova s otazniky misto diakritiky porad asi tak o 300% vic srozumitelnejsi nez prispevky typu "lebo som menil akurát default charset pre mysql demon" , takze zadny spech |
dcom napsal: |
test ěščřžýáíé |
JoHnY napsal: | ||
čo toľko testuješ, anciáša ti naháňam! |
MUSTANG napsal: |
a bezi to na tvem serveru nebo to nekdo hostuje a poskytuje ti DB/PHP? |
Lubos napsal: |
Diakritika sux |
JoHnY napsal: | ||
Big time! |
dcom napsal: | ||||
a co zkusit vyexportovat celou db a znovu ji nahrat (udelat si nejakou testovaci db) a pritom znova nastavit charset u vsech tabuleKč |
JoHnY napsal: | ||||||
no ti vravim ze tie data v tabulkach su uz dodrbane... niektore znaky s diakritikou su proste uplne dropnute a miesto nich je len #3F cize tam uz nepomoze nic |
JoHnY napsal: |
Pocuj, to nie je taky zly napad, udelujem ti zlatu plaketu D. Kunovskeho!
A co je este pozitivnejsie, pozeram dump tabulky nzm_search_wordlist a tam su vsetky tie slova v poriadku! Akurat ze netusim ake je to kodovanie atd. pretoze to je sejvnute v takomto formate nejakom: INSERT INTO `nzm_search_wordlist` VALUES (0x383030, 1777, 0); cize text je tam kodovany do hex values ale ked to importnem do tabulky co som vytvoril tak tam diakritika je (nie su otazniky) ale je rozbita. Skusal som dat collation tabulky cp1250 aj latin2 aj latin1, furt nic, stale je to nahovno. Nemate chut niekto sa s tym pohrat a vyskumat ako treba nastavit tabulku/kodovanie/neviemco aby sa to do databazy importlo spravne? respektive uplne by mi stacilo ak by ste to importli niekde k sebe so spravnou diakritikou a potom z toho vytiahli len tie slova a tie mi poslali v obycajnom textovom file... ta tabulka je tu: http://www.novezahradnimesto.net/wordlist A ked sa to podari tak je teda celkom slusna sanca ze sa podari obnovit tu diakritiku pretoze v tom wordliste by IMHO mali byt uplne vsetky slova ake sa tu kedy pouzili (je tam 41 tisic riadkov) |
dcom napsal: | ||
No zkousel jsem zadat nektery ty hexovy value sem: http://www.cybermachine.org/ a pustit na to Hex 2 ASCII, ale stejně to vylezlo zmršený ... např. 0x7679706fc3a8c3ad74c3a176c3a16e >> vypoèĂtává |
JoHnY napsal: |
inac to je presne to co mne z toho lezie... daj si to tam encodnut a potom si prepni kodovanie na UTF8 natvrdo v browseri... vylezie ti z toho nieco ako som sem ja pastoval... ze to vyzera aspon zhruba ako keby to chcelo byt spravne |
MUSTANG napsal: |
ja se taky muzu pokusit. Ted v praci se k tomu urcite nedostanu, ale muzu to zkusit odpoledne nebo pres vikend... |
MUSTANG napsal: |
muze to byt obecne jakakoli forma Unicode, BigEndian/LowEndian |
JoHnY napsal: | ||
no ano, tak som to myslel, len mi nedoslo najprv ze to bude _nejaky_ unicode a da sa teda nejako zistit co to je a previest to do rozumnej formy? ja zacinam rozmyslat nad tym ze spravit to uplne jednoducho, tych diakritickych znakov je zopar, pozriet aku hodnotu ma kazdy v tom hex, a nahradit tie dve values jednou v cp1250 to bude asi najjednoduchsie, nie? nech zhoria v pekle ti co vymysleli diakritiku |
PHP: |
<?php mysql_connect('localhost','login','heslo');
|
JoHnY napsal: |
nech zhoria v pekle ti co vymysleli diakritiku |
JoHnY napsal: | ||
a este nacrtnem moje riesenie ked sa podari vyriesit to kodovanie v tom fajle.
takze, mam aj povodnu tabulku nzm_search_wordmatch, co znacne zjednodusi pracu, cize by som to spravil takto nejako:
je to rozumne alebo je to uplna blbost? a treba vymysliet daky regexp na to replacovanie a este vo word_texte je vsetko lowercase cize aj na to treba nejako dat pozor |
dcom napsal: | ||||
... no v tom puvodnim fajlu co si sem dal jsou ty slova zakodovany v hexa ... naimportoval jsem si to a pak vyexportoval, tak ze jsou slova uz plain text no a zkousel jsem projet ruzny kodovani, ale bez uspechu ... ... to reseni jak navrhujes je asi dobry, ale bohuzel se zda, ze ta diakritika je totalne v ... |
JoHnY napsal: | ||||||
ale ved kazdy znak tam ma nejaky kod, nie? snad to nie je uplny bordel a 3f tam nie je miesto diakritiky cize to co som navrhol v jednej sprave pred touto na ktoru si reagoval by malo predsa ist, logicky ked je v tom subore cojaviem 0x3830 vzdy namiesto "č" tak nie je problem 0x3830 replacnut spravnym kodom v cp1250 hm? |
JoHnY napsal: |
no dobre, vecer sa na to napijem a uvidime |
JoHnY napsal: |
uz je to snad vsetko, ak uvidite este nejake neprelozene znaky tak dajte vediet
vlastne este by som sa mohol pokusit sukromne spravy opravit ...aale, nie, na to kaslem, tam nie je ziadny wordmatch vlastne... takze kto pise sukromne spravy s diakritikou musi sa s tym vyrovnat ale ak by niekomu napadlo ako to spravit aby zostali aj tie velke pismena na zaciatkoch viet a podobne tak napiste, to este mozem spravit... edit: fuha, aj to sa mi podarilo... tam totiz nebola zmrsena ta diakritika v tabulkach, len nesedelo kodovanie. ...este rebuildnut search index a bude to vsetko... |