Skip to content

Conjuntos de dados linguísticos em português via cooperação com comunidades

License

Notifications You must be signed in to change notification settings

EticaAI/EticaAI-linguistic-datasets-pt

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Conjuntos de dados linguísticos em português via cooperação com comunidades

[trabalho em progresso] Projeto permanente para coordenar a criação e atualização de conjuntos de dados linguísticos (como os que podem ser usados para detectar discriminação e discursos de ódio) preferencialmente validados por pessoas representantes dos grupos afetados ou de especialistas do assunto. Dedicado ao domínio público.


Índice de conteúdo


Conjunto de dados

NOTA: neste momento, 2020-12-01, o conteúdo disponibilizado aqui não está pronto para uso final e serve principalmente para testar estratégias de como coletar e HXL hashtags para usar para classificar a informação.

Grupos envolvidos

Papel da Etica.AI

Diferente do EticaAI/linguistic-datasets-portuguese (que é uma lista para diferentes conjuntos de dados linguísticos em português de diversas fontes) este repositório contém referência para os próprios conjuntos de dados onde Etica.AI serve como organização para permitir colaboração de forma permanente.

Datasets linguísticos em português são raros, pouco completos e, quando existem, frequentemente estão em licença de uso restrito ou dependem de acesso a APIs proprietárias, mesmo que gratúitas. A importância do nosso trabalho aqui, de até mesmo liberar uso comercial, tem potencial para ajudar em automações (como detecção de de ataques verbais).

Papel do HXL-CPLP

Não apenas o HXL (The Humanitarian eXchange Language) é nosso principal formado de armazenamento de dados neste projeto, como há uma troca de ajudas, de via dupla, com pessoas que já trabalham na área de tecnologia de informação de de organizações humanitárias internacionais.

Seu feedback em como melhorar processos de colaboração podem ter impacto até mesmo fora dos países de língua portuguesa. Você, quer seja desenvolvedor de software a até mesmo membro de comunidade tipicamente afetada (mesmo sem saber inglês ou sem ter afinidade com computadores) caso tenha interesse podemos ajudar você a se preparar além do seu país de origem.

Papel de pessoas da comunidade

Para fins deste projeto, tanto as pessoas da Etica.AI como do HXL-CPLP devem ser vistos como facilitadores, não como criadores. Pessoas da comunidade afetada, mesmo que não sejam especialistas com doutorado acadêmico (mas que, ainda assim, tem coragem de ajudar montar conteúdo inicial que pode ser revisado no futuro) são os principais viabilizadores de toda idéia.

Uma das implicações de conjuntos de dados dedicado ao domínio público é que o resultado final pode não conter nome de indivíduos (nem mesmo Etica.AI / HXL-CPLP) dentro do possível vamos ver formas alternativas de valorizar em especial contribuição de pessoas que ajudem a coordenar/revalidar trabalho de outras ou que criaram conteúdo inicial significativo inclusive se você prefere não assumir autoria de suas contribuições por medo de retaliações.

Licença

Domínio Público

Na medida do possível segundo a lei, Etica.AI renunciou a todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o Domínio Público.

About

Conjuntos de dados linguísticos em português via cooperação com comunidades

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages