Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

COLAB novo #116

Open
morale opened this issue Nov 28, 2013 · 5 comments
Open

COLAB novo #116

morale opened this issue Nov 28, 2013 · 5 comments
Labels

Comments

@morale
Copy link

morale commented Nov 28, 2013

Jean, dei uma olhada nas TAGS e acredito que tenha problemas. Basta fazer algumas consultas para verificar. Está recuperando emails de 5 anos atrás junto com os atuais.... ao clicar numa palavra deveria trazer os assuntos mais recentes relacionados e não mistura-los no tempo. Também, o tamanho das palavras deveria estar relacionado à quantidade encontrada no acervo. Não há proporcionalidade.

att.

@morale morale closed this as completed Nov 28, 2013
@seocam
Copy link
Member

seocam commented Nov 28, 2013

@morale, as tags são contadas a partir do radical das palavras. Algumas palavras que estão em um stoplist são ignoradas. O valor utilizado no css do tamanho das palavras não é o contador mas sim o peso daquela palavra. Atualmente a função de peso usa log na base 2: int(round(math.log(count, 2))). Indo mais além, para que não tenhamos um cloud apenas com palavras pequenas ou grandes é aplicado um algoritmo de normalização linear para que as tags sempre tenham o peso entre X e Y (sendo X o valor mínimo e Y o máximo).

Este foi o algoritmo utilizado:

       (D-C)         C*B - A*D
X' =   ----- * X  +  ---------  
       (B-A)           (B-A)

Onde a série estava entre [A,B] e passa a ficar entre [C, D].

Sobre clicar em uma palavra chave e mostrar o conteúdo, a gente mostra o conteúdo mais relevante que contém aquela tag. É simples alterar para exibir por por ordem cronológica mas pelo o que vimos o resultado é bem pior.

Caso vocês tenham alguma adição para o algoritmo posso atualizar sem problemas.

CC: @marciomazza, @Ferri, @jhgouveia

PS: A parte mais problemática, e que com certeza precisa de melhorias, é a escolha das tags de acordo com a classe gramatical. Fazer isso em Inglês é infinitamente mais fácil.

@seocam seocam reopened this Nov 28, 2013
@morale
Copy link
Author

morale commented Dec 3, 2013

@seocam , seria possível inserir um critério para reduzir a relevância de uma palavra no conjunto das que surgem na tag - quando tenha sido extraída de texto cujo autor não produziu nada mais no período de 1 ano (último ano)? É um sintoma de que o autor teria se desligado da Comunidade... o q acha? ou seja: considerar o termo sem reduzir a relevância se o autor estiver participando...

@morale morale closed this as completed Dec 3, 2013
@morale morale reopened this Dec 3, 2013
@jeanferri
Copy link

@morale uma colaboração é menos relevante se um membro não está participando há um certo tempo na comunidade?

@morale
Copy link
Author

morale commented Dec 3, 2013

@Ferri acredito que a importância vai ficando marginal devido a ausência. O tema pode continuar sendo importante mas um ponto de vista emitido a mais de 1 ano tem grande chance de não refletir a realidade atual em razão de mudanças de vários fatores como tecnologia, cenários, etc.

@jeanferri
Copy link

@morale ok, concordo, mas é exatamente assim que está implementado hoje. Há um fator de depreciação na relevância onde o tempo faz tudo perder peso. Você deve ter pego algo com uma relevância alta que ainda não depreciou completamente, mas pode ter certeza que está depreciando. Outro fator é que temos o botão curtir, onde cada curtida aumenta o peso de relevância, assim como as visualizações daquele tópico e o número de respostas. Isso tudo é determinado pela comunidade de acordo com suas participações e iterações.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants