spoj DISUBSTR - Distinct Substrings (统计字串个数,后缀数组)

题目链接

题意:给出一个字符串,问所有不同的字串的个数。

思路:直接求比较困难。我们考虑,假如组成字符串的所有字符都不相同,那么就没有相同的字串,假设字符串的长度为n,那么长度为1的子串有n个,为2的有n-1个。。。为n的有1个,一共就是n*(n+1)/2个。。但是实际上会有重复的。。。

我们再次考虑这张图。 Selection_004

先找一个字符重复的个数,对应height[i]数组就是找height[i]大于等于1个的个数(因为x个height代表了x+1个后缀,保留1个,重复了x个,所以重复的个数恰好和符合条件的height数组对应

接着找大于等于2的个数,大于等于3的个数…

最后再把所有答案累加起来,就是总共重复的次数。

然后按照我推出的这个结论,试着写了一发。。。1A蛤蛤蛤。。。

能想到这里大概是因为之前的题目让我得出了,“height数组是个小妖精”的结论,所以入手就先观察了一下height数组。。。

具体的实现呢,就是先统计height[i]中每个值出现的次数,然后做一个后缀和,最后累加。

  1/* ***********************************************
  2Author :111qqz
  3Created Time :2016年08月01日 星期一 02时43分19秒
  4File Name :code/spoj/disubstr.cpp
  5************************************************ */
  6
  7#include <cstdio>
  8#include <cstring>
  9#include <iostream>
 10#include <algorithm>
 11#include <vector>
 12#include <queue>
 13#include <set>
 14#include <map>
 15#include <string>
 16#include <cmath>
 17#include <cstdlib>
 18#include <ctime>
 19#define fst first
 20#define sec second
 21#define lson l,m,rt<<1
 22#define rson m+1,r,rt<<1|1
 23#define ms(a,x) memset(a,x,sizeof(a))
 24typedef long long LL;
 25#define pi pair < int ,int >
 26#define MP make_pair
 27
 28using namespace std;
 29const double eps = 1E-8;
 30const int dx4[4]={1,0,0,-1};
 31const int dy4[4]={0,-1,1,0};
 32const int inf = 0x3f3f3f3f;
 33const int N=1E3+7;
 34int n;
 35char s[N];
 36int sa[N],rk[N],t[N],t2[N],cnt[N];
 37int height[N];
 38int cmp(int *r,int a,int b,int l){return r[a]==r[b]&&r[a+l]==r[b+l];}
 39
 40void getSa(int n,int m)
 41{
 42    int *x = t,*y = t2;
 43    ms(cnt,0);
 44    for ( int i = 0 ; i < n ; i++) cnt[x[i]=s[i]]++;
 45    for ( int i = 1 ; i < m ; i++) cnt[i] += cnt[i-1];
 46    for ( int i = n-1 ; i >= 0 ; i--) sa[--cnt[x[i]]] = i ;
 47    for ( int k = 1 ; k <=  n;  k <<=1 )
 48    {
 49	int p = 0 ;
 50	for ( int i = n-k ; i < n; i ++) y[p++] = i;
 51	for (  int i = 0 ; i < n ; i++) if (sa[i]>=k) y[p++] = sa[i]-k;
 52	ms(cnt,0);
 53	for ( int i = 0 ; i < n ; i++) cnt[x[y[i]]]++;
 54	for ( int i = 0 ; i < m ; i++) cnt[i]+=cnt[i-1];
 55	for ( int i = n-1 ; i >= 0 ; i--) sa[--cnt[x[y[i]]]] = y[i];
 56	swap(x,y);
 57	p = 1;
 58	x[sa[0]] = 0;
 59	for ( int i = 1 ; i < n ; i++)
 60	    x[sa[i]] = cmp(y,sa[i-1],sa[i],k)?p-1:p++;
 61	if (p>=n) break;
 62	m = p;
 63    }
 64}
 65
 66void getHeight( int n)
 67{
 68    int k = 0 ;
 69    for ( int i = 0 ; i < n ;i ++) rk[sa[i]] = i ;
 70    height[0] = 0 ;
 71    for ( int i = 0 ; i < n;  i++)
 72    {
 73	if (rk[i]==0) continue;
 74	if (k) k--;
 75	int j = sa[rk[i]-1];
 76	while (s[i+k]==s[j+k]) k++;
 77	height[rk[i]] = k ;
 78    }
 79}
 80
 81int getSuffix( char s[])
 82{
 83    int len = strlen(s);
 84    int up = 0;
 85    for ( int i = 0 ; i < len ; i++)
 86    {
 87	int val = s[i];
 88	up = max(up,val);
 89    }
 90    s[len++]='$';
 91    getSa(len,up+1);
 92    getHeight(len);
 93    return len;
 94}
 95
 96int solve( int n)
 97{
 98  //  for ( int i = 0 ; i < n ; i++) cout<<"i:"<<i<<" height[i]:"<<height[i]<<endl;
 99
100    ms(cnt,0); //cnt在求完sa之后就没用了,所以拿来用一下,嘿嘿嘿
101    int up = 0 ;
102    for ( int i = 0 ; i < n; i++) cnt[height[i]]++,up=max(up,height[i]);
103
104    for ( int i = up-1 ; i >=1 ; i--) cnt[i] = cnt[i]+cnt[i+1];
105    int res = 0 ;
106    //for ( int i = 1 ; i <= up; i++) cout<<"cnt[i]:"<<cnt[i]<<endl;
107    for ( int i = 1 ; i <= up ; i++ )
108	res += cnt[i];
109    return res;
110}
111
112int main()
113{
114	#ifndef  ONLINE_JUDGE 
115	freopen("code/in.txt","r",stdin);
116  #endif
117
118	int T;
119	scanf("%d",&T);
120	while (T--)
121	{
122	    scanf("%s",s);
123	   int len = getSuffix(s);
124	   int ans = len*(len-1)/2;
125	    ans-=solve(len);
126	    printf("%d\n",ans);
127
128	}
129
130  #ifndef ONLINE_JUDGE  
131  fclose(stdin);
132  #endif
133    return 0;
134}