Professional Documents
Culture Documents
Disciplina Banco de Dados 1998 Alunos Fernando Silvera Goulart Jnior - fsgj@di.ufpe.br Robson do Nascimento Fidalgo - rdnf@di.ufpe.br Orientadores Ana Carolina Salgado - acs@di.ufpe.br Fernando Fonseca - fdfd@di.ufpe.br
Tpicos da Apresentao
Introduo Background Funes Processo Uma arquitetura Tcnicas Exemplos Referncias
2
Introduo
Motivaes
Grande disponibilidade de dados armazenados eletronicamente Existem informaes teis, invisveis, nesses grandes volumes de dados Aproveitar para prever um conhecimento futuro (ir alm do armazenamento explcito de dados).
[01] Queens University - Belfast
Introduo
O que Data mining:
Data mining (minerao de dados), o processo de extrao de conhecimento de grandes bases de dados, convencionais ou no. Utiliza tcnicas de inteligncia artificial que procuram relaes de similaridade ou discordncia entre dados. Seu objetivo encontrar, automaticamente, padres, anomalias e regras com o propsito de transformar dados, aparentemente ocultos, em informaes teis para a tomada de deciso e/ou avaliao de resultados.
Fernando S. Goulart Jnior & Robson do Nascimento Fidalgo (1998)
Introduo
Exemplo:
Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Mdio Johnson CA Los Angeles Vermelho Mdio
Introduo
Uma empresa utilizando mining capaz de:
comportamento do consumidor; Identificar afinidades entre as escolhas de produtos e servios; Prever hbitos de compras; Analisar comportamentos habituais para detectar fraudes.
data
Introduo
Data mining X Data warehouse: Data mining extrao inteligente de dados; Data warehouse repositrio centralizado de dados; Data mining no uma evoluo do Data warehouse; Data mining no depende do Data warehouse, mas obtm-se melhores resultados quando aplicados em conjunto; Cada empresa deve saber escolher qual das tcnicas importante para o seu negcio. (Uma, outra ou as duas); Data Warehouse aliado a ferramentas estatsticas desempenham papel semelhante ao data mining, mas no descobrem novos padres de comportamento. (a no ser empiricamente).
7
Introduo
Evoluo at o data mining
Evoluo Coleo de dados 1960 Acessos aos dados 1980 Data warehousing & suporte a deciso 1990 Data Mining Atualmente Perguntas Qual foi meu rendimento total nos ltimos cinco anos ? Qual foi meu rendimento no Brasil no ltimo janeiro ? Qual foi meu rendimento no Brasil no ltimo janeiro? Do sul at o nordeste Porque alguns produtos so mais vendidos na regio sul ? Tecnologia disponvel Computadores, Fitas, discos RDBMS, SQL, ODBC Processamento analtico on-line, banco de dados multidimencionais, data warehousing Algoritmos avanados, computadores multiprocessados, B.D. grandes e poderosos Caractersticas Retrospectiva, Dados estticos como resposta Restropectiva, dados dinmicos a nvel de registos como resposta Retrospectiva, dados dinmicos em mltiplos nveis como resposta Prospectivo, Informaes (perspectivas) como resposta.
8
OK +
Inadimplente -
HIPOTESES
11
12
Associao:
Procura registos que tenham similaridades associativas Podem ser expressados por regras
Ex: 62% dos compradores de guaran compram pipoca 62% fator de confiana 62% L R LHS (left hand side) H H RHS (right hand side)
... ...
S G+P Guaran
S Pipoca
13
Segmentao/agrupamento:
Segmenta a base de dados em grupos por suas similaridade e diferenas O sistema tem que descobrir por si prprio as similaridade e diferenas ( A..S.)
Ex: Clientes de bom crdito e clientes de mau crdito
14
15
Pr-processamento
Estgio de limpeza dos dados, onde informaes julgadas desnecessrias so removidas.
Ex. :O sexo de um paciente gestante
Ex: rede neural converter valor literal em valor numrico Disponibilizar os dados de maneira usvel e navegvel. Data mining
17
Graficamente temos:
Transformao
Pr-processamento
Dados
1os. dados
Dados pr-processados
1o. passo
2o. passo
19
Tpicos da Apresentao
Introduo Background Tarefas Processo Uma arquitetura Tcnicas Exemplos Referncias
20
Tcnicas
Reviso geral de Aprendizagem:
Aprendizagem
Simblica
No Simblica
Estatstica
Indutiva
CBR
Alg.Genticos
Rede Neural
Lgica
ID3
21
Tcnicas
Induo
Regras indutivas (rule induction)
Regra indutiva o processo de olhar uma srie de dados e, a partir dela, gerar padres. Pode-se trabalhar com dados numricos ou no Pelo fato de explorar uma srie de dados, o sistema indutivo cria hipteses que conduzem a padres Ex.: Analisada as idades de profissionais foi gerada a seguinte regra: Se profisso = atleta ENTO idade < 30
Regras cobertas comportamentos estveis Regras inexatas margem de preciso fixada (%)
22
Tcnicas
Induo:
Regras indutivas (graficamente temos)
23
Tcnicas
rvores de deciso: (ID3) - 1o Exemplo
Representaes simples do conhecimento Utilizao de regras condicionais A partir de um conjunto de valores decide SIM ou NO Mais rpida e mais compreensvel que redes neurais Exemplo: Sair ou no de acordo com o tempo
Tempo
Nublado Umidade Alta Normal Ensolarado
Sair
Sair
Sair
Sair
Sair
24
Tcnicas
rvores de deciso: (ID3) - 2o Exemplo
Dvida = 0%
SIM
Nesta rvore de decises, regras so induzidas nos padres dos dados e cria-se uma hierarquia de indicaes se-ento.
25
Tcnicas
Redes Neurais:
uma abordagem computacional que envolve desenvolvimento de estruturas matemticas com a habilidade de aprender. (modelo do sistema nervoso para aprender) Estruturalmente, uma rede neural consiste em um nmero de elementos interconectados (chamados neurnios/ns), que possuem entrada, sada e processamento. So organizados em camadas que aprendem pela modificao da conexo. Arquitetura:
26
Tcnicas
Redes Neurais:
Para construir um modelo neural, ns primeiramente "adestramos" a rede em um dataset de treinamento e ento usamos a rede j treinada para fazer predies. Problemas:
No retorna informao a priori No pode ser treinada em uma grande base de dados Entrada no pode ser dados alfa-numricos (mapear para numrico) Nenhuma explanao dos dados fornecida (caixa preta)
27
Tcnicas
Redes Neurais:
Exemplo prtico: risco de cncer
28
Tcnicas
Redes Neurais: - 2o Exemplo
RENDA DBITO IDADE REG. DE PAGAMENTO
Nvel de entrada
Nvel de sada
As redes neurais usam seus dados de entrada. Atribui pesos nas coneces entre os atributos (neurnios). E obtm um resultado (risco de ter ou no crdito) no nvel de sada.
29
Exemplos
reas de aplicaes potenciais:
Vendas e Marketing
Identificar padres de comportamento de consumidores Associar comportamentos caractersticas demogrficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores leais
30
Exemplos
reas de aplicaes potenciais:
Bancos
Identificar padres de fraudes (cartes de crdito) Identificar caractersticas de correntistas Mercado Financeiro ($$$)
31
Exemplos
reas de aplicaes potenciais (continuao):
Mdica
Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de sades Comportamento de usurios de planos de sade
32
Introduo
Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas s sextas-feiras tarde no caminho do trabalho para casa; Wal-Mart otimizou s gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% .
33
Exemplos
Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milho de dlares em tcnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente 220v
34
Exemplos
Exemplo (3) - Bank of America (Info 03/98)
Selecionou entre seus 36 milhes de clientes
Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em trs anos o banco lucrou 30 milhes de dlares com a carteira de emprstimos.
35
Exemplos
Empresas de software para Data mining:
SAS Information Havesting Red Brick Oracle Sybase Informix IBM http://www.sas.com http://www.convex.com http://www.redbrick.com http://www.oracle.com http://www.sybase.com http://www.informix.com http://www.ibm.com
36
Concluses
Data mininig um processo que compreender o comportamento dos dados Data mining X Data warehouse Tem um suporte muito forte em I. A. Pode ser bem aplicado em diversas negcios reas de permite
S ser eficiente se o valor das informaes extradas exceder o custo do processamento dos dados brutos. Ainda no h um consenso entre os autores.
37
Concluses
Perguntas ?
38
Concluses
Muita informao = Nenhuma informao ?
Muita Informao
39
Referncias
Livros:
40
Referncias
Artigos e endereos na Internet:
[01] http://www-pcc.qub.ac.uk/tec/courses/datamining [02] http://www.rio.com.br/~extended [03] http://www.datamining.com [04] http://www.santafe.edu/~kurt [05] http://www.datamation.com [06] http://www-dse.doc.ic.ac.uk/~kd [07] http://www.cs.bham.ac.uk/~anp [08] http://www.dbms.com/ (Vrios artigos) [09] http://www.infolink.com.br/~mpolito/mining/mining.html [10] http://www.lci.ufrj.br/~labbd/semins/grupo1
41
42