You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Harta politicii acum crawluiește doar hotnews și mediafax, dar ar fi util și benefic dacă ar indexa toate ziarele.
Putem face asta preluând articolele din newskeeper.ro care indexează 10 surse românești de știri.
From: Adrian Zavelcuta - 6:22 AM (4 hours ago) - to me
Salut,
Sunt doua exporturi
unul cu lista ultimelor 100 de articole care e aici: http://newskeeper.ro/hpexport/list . Formatul e json si e relativ simplu: un array ce contine articole cu cheile:
originalUrl - url-ul de la siteul de stiri
md5 - nu stiu daca ajuta, dar eu il folosesc pentru a identifica url-uri unice
insertDate - timestampul cand a fost inserat
nkUrl - urlul catre contentul articolului
newspaper - situl de unde e luat - deocamdata poate avea 10 valori: ADEVARUL,EVZ,GANDUL,CAPITAL,ZF,WS,JURNALUL,HOTNEWS,LIBERTATEA,RL
celalalt export e pentru continutul articolului si are campurile:
rawHtml - pagina html cum e pe site
si un json object optional 'optionalArticle' care contine doar textul articolului (campul nu apare daca pagina nu poate sa fie parsata):
Cornel a implementat asta, și azi am adăugat scriptul în CRON pentru a rula o dată la fiecare patru ore.
La prima vedere pare okay, dar cineva ar trebui să țină un ochi pe ce se întâmplă pentru a se asigura că totul merge cum trebuie - că știrile sunt indexate corect, că tot conținutul este acolo.
O primă eroare pe care eu am remarcat-o este că NewsKeeper nu pare să includă întreg conținutul din corpul știri.
Crin Antonescu: După alegeri, USL va avea cea mai largă majoritate, mai mare decat a FSN în 1990
Liderul USL Crin Antonescu este foarte încrezător în rezultatele pe care le va obţine Uniunea la alegerile din 9 decembrie. Liberalul crede că USL va avea cea mai largă majoritate care a existat vreodată în Parlament, mai mare chiar decât cea de care beneficia FSN în 1990.
Și pentru că Crin Antonescu nu e menționat în restul articolului, harta nu îl taguiește corect.
Issue-ul ăsta ar trebui rezolvat de NewsKeeper, evedent, nu de noi.
Cum am văzut că NewsKeeper afișează și poze din articole, ar fi cool dacă și import-ul din harta politicii ar adăuga poze - așa cum facem deja pentru Mediafax.
Harta politicii acum crawluiește doar hotnews și mediafax, dar ar fi util și benefic dacă ar indexa toate ziarele.
Putem face asta preluând articolele din newskeeper.ro care indexează 10 surse românești de știri.
From: Adrian Zavelcuta - 6:22 AM (4 hours ago) - to me
Salut,
Sunt doua exporturi
Doua exemple de url-uri:
Lista: http://newskeeper.ro/hpexport/list
Un articol din lista: http://newskeeper.ro/hpexport/item?id=1000
Deocamdata nu sterg articolele mai vechi de o zi, dar o sa fac un scheduler pentru cleaning.
Enjoy :)
The text was updated successfully, but these errors were encountered: