News

Backblaze vê taxas de falhas de unidade aumentarem e pergunta se a IA pode ajudar

A Backblaze divulgou o último relatório detalhando as taxas de falha para as diversas unidades que alimentam seus serviços de armazenamento e backup, e está analisando as tendências recentes nos números, além de considerar se a IA pode reduzir essas taxas de falha.

Como um provedor de serviços de armazenamento, Contraluz monitora uma frota inteira de unidades de várias marcas e modelos em seus datacenters. Descontando os dispositivos de inicialização, isso totalizou 284.876 discos rígidos no final do Q2 de 2024.

No entanto, a empresa desconsiderou alguns modelos de veículos, incluindo aqueles que não tinham pelo menos 100 unidades em serviço e aqueles que não acumularam 10.000 ou mais dias de uso durante o trimestre, deixando 284.386 veículos divididos em 29 modelos diferentes para a análise.

Com todo o hype em torno da IA ​​ultimamente, era inevitável que surgisse a questão de se ela pode ser usada para prever falhas de disco rígido. Na verdade, a manutenção preditiva tem sido há muito tempo considerada um caso de uso para aprendizado de máquina em TI e outras áreas de engenharia.

Para discos rígidos, isso pode envolver o treinamento do Backblaze de um LLM usando seus dados de estatísticas de unidade para um determinado tipo de unidade no último ano e, em seguida, verificar se essa unidade pode usar inferência para fornecer uma probabilidade de falha para um dispositivo específico ao longo do tempo.

No entanto, de acordo com o principal evangelista de armazenamento em nuvem e autor do relatório da Backblaze, Andy Klein, um aspecto que não está claro é se o que a IA aprende sobre uma variante de unidade pode ser aplicado a uma diferente, já que o perfil de falha para cada uma pode diferir radicalmente das outras. Klein se refere ao gráfico de cobra (a última imagem neste artigo) para ilustrar isso; um LLM treinado com dados das unidades Seagate de 4 TB (linha preta) poderia prever falhas de unidade para qualquer uma das unidades HGST de 4 TB (linhas roxa e marrom)?

Nos próximos meses, a Backblaze pretende revisar artigos de pesquisa e estudos que analisaram se IA/ML podem ser usados ​​para fazer previsões de falhas de unidade para tentar lançar alguma luz sobre o assunto.

Quando se trata de seu patrimônio com mais de 284 mil veículos, a Backblaze descobriu que a taxa de falhas anualizada (AFR) geral para o segundo trimestre foi de 1,71%, o que é menor do que os 2,28% relatados para o mesmo período do ano passado, mas maior do que os 1,41% observados no primeiro trimestre deste ano.

“Embora o aumento trimestral tenha sido um pouco surpreendente, flutuações trimestrais na AFR são esperadas”, observou Klein.

A Backblaze relata que uma unidade HGST de 12 TB (HUH721212ALN604) causou preocupação ao atingir uma AFR de 7,17% no segundo trimestre.

Klein diz que as taxas de falha trimestrais para este dispositivo são incomuns, mas agora remontam a cerca de um ano. Como resultado, a AFR vitalícia aumentou de 0,99% para 1,57% para esta variante, e a empresa está de olho nos desenvolvimentos.

Outra descoberta notável é que dois modelos de drive tiveram zero falhas durante o trimestre, ambos produtos Seagate (14TB ST14000NM000J e 16TB ST16000NM002J). No entanto, eles têm um número relativamente pequeno de drives em serviço com o Backblaze.

A Backblaze relata que seu modelo mais antigo de unidade de dados ainda em uso na produção é um Seagate de 4 TB (ST4000DM000), mas que os dados contidos nele estão programados para serem migrados para unidades mais novas (e provavelmente maiores) no próximo trimestre ou dois.

No entanto, a unidade de dados individual mais antiga ainda em serviço é uma unidade HGST de 4 TB (HMS5C4040ALE640) que tinha nove anos, 11 meses e 23 dias em operação no final do Q2. O Backblaze Vault em que a unidade está alojada está agora em processo de migração.

De acordo com Klein, o objetivo da Backblaze ao coletar todas essas estatísticas é desenvolver um perfil de falhas para uma determinada unidade ao longo do tempo, o que ajudaria a informar as estratégias de substituição e migração da empresa.

Os gráficos a seguir mostram as mudanças no AFR vitalício para modelos de tração em operação que acumularam pelo menos um milhão de dias de serviço até o final do segundo trimestre de 2024.

No primeiro gráfico, a idade média em meses é plotada em relação à taxa de falhas anualizada para 14 unidades diferentes que têm uma idade média de 60 meses ou menos. O segundo gráfico mostra nove tipos, aqueles para os quais a idade média é superior a 60 meses, com essa divisão escolhida porque esse período de tempo é o período de garantia típico para discos rígidos de classe empresarial.

No primeiro gráfico, as unidades no quadrante I são consideradas como tendo bom desempenho pela Backblaze, com uma AFR de menos de 1,5%, enquanto aquelas no quadrante II têm taxas de falha acima de 1,5%, mas ainda são razoáveis. As unidades no quadrante IV são relativamente novas e estão apenas começando a estabelecer seu perfil de falha. Embora não haja unidades no quadrante III, isso não seria motivo para alarme, pois alguns modelos de unidades podem exibir taxas mais altas de falha no início.

No segundo gráfico, os impulsos estão distribuídos em todos os quatro quadrantes, com o quadrante I representando aqueles com bom desempenho, como antes, enquanto os quadrantes II e III são “impulsos com os quais precisamos nos preocupar”, de acordo com Klein, e os modelos do quadrante IV parecem bons até agora.

No entanto, para ilustrar melhor a mudança nas taxas de falha ao longo do tempo, a Backblaze criou um novo gráfico. Veja o gráfico da cobra! Ele mostra a taxa de falha ao longo da vida útil de cada um dos nove modelos com mais de 60 meses ao longo do tempo, começando em 24 meses para tornar o gráfico menos confuso.

Os resultados mostram que os diferentes tipos se classificam no quadrante I ou II quando sua idade média ultrapassa 60 meses, com cinco dos nove modelos no quadrante I no segundo trimestre de 2024.

Aqueles com linhas quase verticais (vermelhas, marrons e roxas) indicam que suas taxas de falha foram consistentes ao longo do tempo. No entanto, as linhas azuis e cinzas representam modelos de drive que aumentaram suas taxas de falha conforme envelheceram.

Apesar disso, Klein diz que a linha azul (Seagate ST800DM002) representa principalmente um perfil de falha normal, já que sua taxa de falha nos primeiros 60 meses foi consistentemente em torno de 1%.

Dos modelos de drive que acabaram no quadrante II, três têm perfis de falha semelhantes; eles chegaram a algum ponto em seu ciclo de vida e sua curva começou a dobrar para a direita conforme sua taxa de falha acelerava. A linha preta representa um drive Seagate de 4 TB que está sendo “migrado agressivamente” e substituído por outros drives, de acordo com Klein.

Como sempre, a Backblaze disponibiliza sua versão completa Conjunto de dados de estatísticas de direção de graça, para qualquer um baixar e analisar por si mesmo. As únicas condições são que você cite o Backblaze como a fonte se usar os dados, e você não pode vender os dados. ®

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button