Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Tematické sbírky - řazení url adres #532

Closed
mariehaskovcova opened this issue Jun 16, 2020 · 18 comments · Fixed by #585 or #586
Closed

Tematické sbírky - řazení url adres #532

mariehaskovcova opened this issue Jun 16, 2020 · 18 comments · Fixed by #585 or #586
Assignees
Milestone

Comments

@mariehaskovcova
Copy link
Contributor

jako první by se měla zobrazovat semínka, která jsou volně dostupná (stav Archivován). V minulosti už se to řešilo (#466, #438). Mělo by to vypadat asi takhle: https://webarchiv.cz/cs/tematicke-kolekce/karel-iv-700-vyroci-narozeni (nahoře semínka se stavem Archivován, tzn. veřejné), dole ostatní (dostupné jen v NK). V tuto chvíli to lze nastavit jen ručně, chtěli bychom to automatizovat

@Fasand
Copy link
Contributor

Fasand commented Jun 18, 2020

V tech predchozich issues se hlavne resilo automaticke párování seminek ke zdrojum, kdyz se zadalo url do custom seeds a pritom nejaky zdroj mel tu samou url. Tohle se deje automaticky pri vytvoreni sklizne a funguje to jenom pokud ta URL sedi presne, cimz se ta starsi issues uzavrela.

Pokud tomu tedy dobre rozumim, tak chces aby se ta custom seminka lépe párovala ke zdrojum, tedy aby se tam ukazovalo misto seminek vice zdroju? Tohle se vesmes resilo v tom #438.

Ten problem je, ze zjistit jestli custom seed (e.g. "krestandnes.cz/dan-drapal-vladni-krize-cesku") je soucasti nejakeho archivovaneho zdroje je otazkou jednoho radku a rychle query, ale naopak to je slozitejsi.

Napr. pokud nejaky zdroj ma seminko "krestandnes.cz", ale tu specifickou URL za lomitkem uz ne, tak jenom tenhle zdroj najit je otazkou projit vsechna seminka v databazi (na lokale mam 12386, na produkci bude o neco vic) a u kazdeho zkusit, jestli jeden retezec neni obsazen v tom druhem a naopak. Pokud je custom seminek treba 10, tak to je v tomhle pripade 247720 operaci, kde kazda operace je jeste zavisla na delkach tech URL (prumer 25 znaku).

To vlastne neni nic tak hrozneho, ale jenom kontrolovat, jestli je jeden řetězec obsazen v tom druhem a naopak neni zrovna nejlepsi napad: kdyz do custom seminek zadam jenom "google", tak mi vyskoci 20 existujicich seminek od 17 zdrojů. U "sites.google.com" uz jenom 8 zdroju, ale k zadnemu z nich to custom seminko vlastne nemuze logicky patrit. Proto treba to kontrolovani podle domén nemuze fungovat, protoze to spadne na jakekoliv spolecne blogove platforme.

Nejaka pokrocilejsi kontrola by urcite zabrala vic casu u vsech seminek, ale asi by to bylo furt v ramci par sekund pri vytvoreni sklizne. Spis me zadna takova chytra kontrola, ktera by nektera seminka nepriradila spatne nenapada, coz byl problem i u uzavrenych issues.


Takze vesmes ta archivovana seminka by se ted mela zobrazovat jako prvni u vsech, protoze se prvni vypisuji u kolekci custom zdroje a az potom neprirazena custom seminka. Ale vzit ta custom seminka a uhodnout ke kteremu z existujicich zdroju vlastne patri uz neni tak jednoduche 😞

Jsem otevreny napadum, treba me nenapada nejake jasne reseni, ale zatim mi to prijde trochu ambiciozni.

@mariehaskovcova
Copy link
Contributor Author

jj, vím, že jsme to už před časem zavrhli (tuhle pokročilou variantu párování semínek) ještě s Járou a dohodli jsme se, že se zobrazí nahoře modře prolinkované zdroje pouze pokud bude semínko v identické variantě jako v Seederu (prostě jedna ku jedné). Ale v testu to zatím nefunguje, to, co je na ostrém webu, je udělané kurátory ručně. Příklad testu: https://app.webarchiv.cz/cs/tematicke-kolekce/topiccollection-2. První, druhé, třetí a šesté semínko je veřejné (stav Archivován, stejný tvar url jako v Seederu), ale semínka se ukazují ve stejném pořadí, jak byly vloženy do Seederu - tzn. všechna volná semínka nejsou jako první a nejsou prolinkovaná

@Fasand
Copy link
Contributor

Fasand commented Jun 18, 2020

Ok tak to sorry, to jsem jenom spatne pochopil a predpokladal, ze se ty kolekce taky automaticky po pridani paruji, ale chybel tam ten radek. V dalsi verzi by to uz melo jit, i po editu existujici kolekce (jenom se to nespusti automaticky pro vsechny existujici kolekce)

@mariehaskovcova
Copy link
Contributor Author

jasně, ono je matoucí, že v tom příkladu z živého webu to vypadá, že už se to děje, ale šlo to do teď jen ručně po jednom semínku. Tak super :) Už existující kolekce pak upravíme jednotlivě přes edit

@Fasand
Copy link
Contributor

Fasand commented Jun 19, 2020

Paráda, tak ja to tady zatim uzavru a kdyby se objevily nejake problemy, tak zase otevri :)

@Fasand Fasand closed this as completed Jun 19, 2020
@zlodejpapiru
Copy link

zlodejpapiru commented Aug 27, 2020

Ahoj! Zápasíme s řazením Tematických kolekcí v seederu - dle čeho se defaultně řadí na webu?

@mariehaskovcova
Copy link
Contributor Author

@Fasand ještě Petře k řazení semínek uvnitř tem. kolekce - jako první “modrá” by měla být semínka, jejichž arch. kopie jsou volně dostupné, tzn. mají stav Archivován, aktuálně se tam objevují i semínka s jinými stavy, vypadá to, že možná všechny, které mají záznam v Seederu

viz příklad: https://app.webarchiv.cz/cs/tematicke-kolekce/test-verejna-a-neverejna-seminka

@Fasand
Copy link
Contributor

Fasand commented Jan 5, 2021

@zlodejpapiru Řadí se podle pole "order", tedy vlastne tak, jak si to kuratori zvoli – aby napr nahore mohla byt i starsi ale porad aktualni tematicka kolekce. V Seederu je samozrejme moznost si je seradit treba podle datumu vytvoreni, jenom to neni default.

@mariehaskovcova Koukam na to a mas pravdu, zobrazuji se proste vsechny přiřazené zdroje, nezavisle na jejich stavu, v tom poradi, v jakem jsou v Seederu.

Ta modrá semínka by tedy mela být:

  1. pouze se stavem "Archivován", i.e. "Archivován" -> Custom semínka
  2. nebo by "Archivován" jenom měla jít jako první, i.e. "Archivován" -> Zdroje další stavy -> Custom semínka?

I kdyz to tak aktualne neni, tak bych logicky cekal moznost 1, tedy zadne neverejne zdroje by se nemely zobrazit, tak se jenom ujistuji.
Ve vsech dalsich pripadech by se na webovkach mely zobrazovat jenom verejne zdroje (viz #485), tohle mi tedy asi jenom uteklo, protoze se k tem zdrojum nepristupuje pres Source.objects ale pres self.get_object().custom_sources, takze pardon za prehlednuti.

@mariehaskovcova
Copy link
Contributor Author

ahoj, chápu :) Nahoře jako první a modrá by měla být semínka se stavem Archivován, podtím pak všechny ostatní bez ohledu na stav nebo jestli jsou vůbec v Seederu (jsou tam i semínka, která v Seederu nejsou)

jako je to teď tady: https://webarchiv.cz/cs/tematicke-kolekce/karel-iv-700-vyroci-narozeni (je to ještě z doby, kdy to šlo dělat semínko po semínku ručně - modře a nahoru, ručně to ale bylo moc pracný)

šlo nám o to, aby uživatel viděl jako první zdroje, které si může prohlídnut volně zvenčí (stav Archivován) a pak teprve všechny ostatní, kvůli kterým musí osobně do NK. Tzn. klíčem pro to, které semínko je modré a nahoře je stav Archivován, ostatní jsou pod ním černé:)

@Fasand
Copy link
Contributor

Fasand commented Jan 6, 2021

Ahh ok, ted jsou nahore modre zkratka vsechny zdroje, ktere jsou v seederu a podtim dole černě ta mimosystemova seminka.
Seradim je tedy stavem "Archivován" nahore a zbytek pod tim a cokoliv co nebude mit "Archivován" dam bez prokliku, tedy černě.

Jenom takova otazka vedle: proc by tam vlastne ten proklik nemel byt pro ty dalsi zdroje? To, ze nektera seminka se daji nacist jen z NK me ani nenapadlo, protoze ten link tam samozrejme je nezavisle na lokaci a jenom po par sekundach vyskoci "Resource Not In Archive"
Napr. u toho Karla IV. šesté semínko (http://www.mediar.cz/700-vyroci-karel-iv-jdou-desitky-milionu/) uz je mimosystemove, kdyz tedy kliknu na "archivovaná verze", tak se mi zobrazi to "Resource Not In Archive", pritom ta stranka jako takova porad existuje, na to ale proklik uz neni.
A u tech archivovanych je stejne hlavni proklik (pres nazev zdroje) na tu aktualni verzi, tedy kdyz na to nekdo intuitivne klikne, tak vlastne vubec nepouziva webarchiv. V katalogu stránek jsou ty linky zase naopak, coz me mate jeste trochu vic 😃

@Fasand
Copy link
Contributor

Fasand commented Jan 6, 2021

Plus me jeste napada, ted jsou ty zdroje vlastne razeny podle toho, jak se tam zadaji.
Kdyz se to zobrazuje na WWW, melo by se to seradit treba abecedne podle nazvu? Vypada to, ze to nejde nejak jednoduse jinak upravit to poradi bez vetsiho zasahu.
Tohle myslim jen pro ty prirazene zdroje, jakakoliv zbyla mimosystemova seminka se daji seradit manualne v textovem poli, i kdyz i ta by samozrejme sla seradit automaticky (jenom trochu otravne s http(s) apod)

@mariehaskovcova
Copy link
Contributor Author

řazení bych nechala u modrých (stav Archivován) i černých semínek (všechno ostatní) tak, jak je tam kurátor vloží (nemusí být podle abecedy ani podle ničeho jiného), kurátor si tak může sám určit, která semínka chce, aby byly vidět nejdřív

tohle řešení bylo navržené už kdysi, máš pravdu, naší snahou je dostat uživatele nejdřív na naši archivovanou verzi, tzn. tak, jak je to v tom katalogu, dává větší smysl...

"Resource Not In Archive" je aktuální chyba našeho waybacku, která je teď v řešení - u kopií z několika posledních let momentálně wayback stávkuje a přestože je máme, ukazuje se, že je nemáme... je to zmatek :)

@mariehaskovcova
Copy link
Contributor Author

mariehaskovcova commented Jan 6, 2021

možná by stačilo jen barevné odlišení, tzn. modrá veřejná (Archivován), černá neveřejná (ostatní), a ten link u modrých semínek vedoucí na živý web odstranit úplně... anebo aby byl link na živý web naopak u všech, ale v pořadí jako v katalogu... proberu to ještě s ostatníma a napíšu, díky

@mariehaskovcova
Copy link
Contributor Author

mariehaskovcova commented Mar 30, 2021

chtěli bychom, aby byly u tematických kolekcí prolinkované všechny názvy do archivu (ne na živý web, jak je to teď, např: https://app.webarchiv.cz/cs/tematicke-kolekce/prvni-svetova-valka) a místo linku na archivovanou verzi v hranatých závorkách by byl link na aktuální verzi (tzn. podobně jako v katalogu https://app.webarchiv.cz/cs/katalog-stranek), zároveň bychom chtěli, aby se nahoru seřadili nejprve zdroje, které mají stav Archivován (tzn. jsou vidět zvenčí), pak teprve všechny ostatní (uvažujeme, jak odlišit dostupné a nedostupné - zatím takto: veřejné normálně, neveřejné kurzivou)
v anglické verzi je aktuálně chyba (https://app.webarchiv.cz/en/topic-collections/prvni-svetova-valka?page=1) - v závorce je current, ale vede do archivu :), upravíme pak při jednom

@JanMeritus JanMeritus added this to the 1.0.6 milestone Apr 30, 2021
@Fasand
Copy link
Contributor

Fasand commented May 17, 2021

PR #585, ještě není merged:

  • U všech zdrojů/semínek se v hranatých závorkách zobrazí "aktuální verze" / "current" s proklikem na URL semínka.
    • Pokud zdroj má stav "Archivován", jméno zdroje odkazuje na Wayback
    • V obou případech to teď otevře v novém okně/tabu místo v tom samém
  • Zdroje se stavem "Archivován" jsou nahoře a pod tím všechny ostatní, custom semínka nakonec; to už by tak mělo být i teď – není někde?
  • Odlišení ne/dostupných: zdroje "Archivován" jsou modré a normálně, ostatní zdroje černé kurzívou bez linku v názvu

@Fasand Fasand mentioned this issue May 17, 2021
@mariehaskovcova
Copy link
Contributor Author

řazení ok, díky, chtěli bychom link do archivu i u těch neveřejných (nyní černě kurzivou) - tzn. bude to také modrý link, ale veřejná semínka nahoře budou normálně, neveřejná pod nimi také modře, prolinkovaná do archivu, ale kurzivou - grafický rozdíl by byl jen té kurzivě

(jinak na živém webu to řazení úplně neběží - viz např. https://webarchiv.cz/cs/tematicke-kolekce/10-webu-pro-vecnost, první semínko nemá stav "Archivován")

@Fasand
Copy link
Contributor

Fasand commented May 28, 2021

Upraveno v PR #586, na produkci se to nezobrazuje a neřadí správně, protože je tam stále stará verze, na testu už by se to ale mělo řadit správně.
Rozdíl je v

Seeder/Seeder/www/views.py

Lines 104 to 105 in 056f3d3

def get_paginator_queryset(self):
return self.get_object().custom_sources.all()
(produkce) a

Seeder/Seeder/www/views.py

Lines 104 to 114 in b11607f

def get_paginator_queryset(self):
qs = self.get_object().custom_sources
# Manually first select the PUBLIC sources and then everything else
pks = list(
qs.filter(state__in=PUBLIC_STATES).values_list("pk", flat=True))
pks += list(
qs.exclude(state__in=PUBLIC_STATES).values_list("pk", flat=True))
# In order to return a real QS, must do some Case-When magic
preserved = Case(
*[When(pk=pk, then=pos) for pos, pk in enumerate(pks)])
return qs.filter(pk__in=pks).order_by(preserved)
(master, tedy test)

@mariehaskovcova
Copy link
Contributor Author

ahoj, nefunguje funkce, která jako první řadila semínka se stavem Archivován (možná po zavedení interních a externích kolekcí?). V minulosti jsme to už vyřešili, proto to tu znovu otevírám. Mohl bys @Fasand na to prosím kouknout? Jde nám jen o to, aby uživatelé viděli jako první zdroje, které jsou licencované, tzn. volně dostupné

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging a pull request may close this issue.

4 participants