【模板】KMP
题目描述
给出两个字符串 s1s_1s1 和 s2s_2s2,若 s1s_1s1 的区间 [l,r][l, r][l,r] 子串与 s2s_2s2 完全相同,则称 s2s_2s2 在 s1s_1s1 中出现了,其出现位置为 lll。
现在请你求出 s2s_2s2 在 s1s_1s1 中所有出现的位置。
定义一个字符串 sss 的 border 为 sss 的一个非 sss 本身的子串 ttt,满足 ttt 既是 sss 的前缀,又是 sss 的后缀。
对于 s2s_2s2,你还需要求出对于其每个前缀 s′s's′ 的最长 border t′t't′ 的长度。
输入格式
第一行为一个字符串,即为 s1s_1s1。
第二行为一个字符串,即为 s2s_2s2。
输出格式
首先输出若干行,每行一个整数,按从小到大的顺序输出 s2s_2s2 在 s1s_1s1 中出现的位置。
最后一行输出 ∣s2∣|s_2|∣s2∣ 个整数,第 iii 个整数表示 s2s_2s2 的长度为 iii 的前缀的最长 border 长度。
样例 #1
样例输入 #1
ABABABC
ABA
样例输出 #1
1
3
0 0 1
提示
样例 1 解释
。
对于 s2s_2s2 长度为 333 的前缀 ABA,字符串 A 既是其后缀也是其前缀,且是最长的,因此最长 border 长度为 111。
数据规模与约定
本题采用多测试点捆绑测试,共有 3 个子任务。
- Subtask 1(30 points):∣s1∣≤15|s_1| \leq 15∣s1∣≤15,∣s2∣≤5|s_2| \leq 5∣s2∣≤5。
- Subtask 2(40 points):∣s1∣≤104|s_1| \leq 10^4∣s1∣≤104,∣s2∣≤102|s_2| \leq 10^2∣s2∣≤102。
- Subtask 3(30 points):无特殊约定。
对于全部的测试点,保证 1≤∣s1∣,∣s2∣≤1061 \leq |s_1|,|s_2| \leq 10^61≤∣s1∣,∣s2∣≤106,s1,s2s_1, s_2s1,s2 中均只含大写英文字母。
思路
KMP算法是一种改进的字符串匹配算法,能在线性时间内完成任务,其主要优点是在匹配失败时,不会从头开始匹配,而是利用已经部分匹配的有效信息,避免了之前已匹配的字符的重复检查。
分为两个步骤:生成部分匹配表和查找字符串。
在生成部分匹配表的步骤中,首先初始化变量j为0,表示当前已经匹配的字符数量。然后,它遍历目标字符串s2的每一个字符。如果当前字符不匹配,程序会向前回溯,即将j设置为pmt[j],这是一个核心的优化,利用了之前匹配的信息,避免了从头开始匹配。如果当前字符匹配,那么j就会后移一位。最后,将当前的j值存入部分匹配表pmt中。
在查找字符串的步骤中,同样初始化j为0,然后遍历主字符串s1的每一个字符。如果当前字符不匹配,程序会向前回溯。如果当前字符匹配,j就会后移一位。如果j等于目标字符串s2的长度,那么就找到了一个匹配的子串,输出这个子串在主字符串中的开始位置,然后继续向前回溯,寻找下一个可能的匹配。
最后输出部分匹配表,这个表是KMP算法的关键,它记录了目标字符串的自我重复性信息,用于在匹配失败时快速跳过已知的不可能匹配的部分。
AC代码
#include <cstring>
#include <iostream>
#define AUTHOR "HEX9CF"
using namespace std;
const int N = 1e7 + 7;
string s1, s2;
int pmt[N];
int main() {
cin >> s1 >> s2;
s1 = " " + s1;
s2 = " " + s2;
int l1 = s1.length() - 1;
int l2 = s2.length() - 1;
int j; // 当前已经匹配的字符数量
// 生成部分匹配表
j = 0;
for (int i = 2; i <= l2; i++) {
// 下一个字符不匹配
while (j && s2[i] != s2[j + 1]) {
// 向前回溯
j = pmt[j];
}
// 下一个字符匹配
if (s2[i] == s2[j + 1]) {
// j 后移一位
j++;
}
// 更新部分匹配表
pmt[i] = j;
}
// 查找字符串
j = 0;
for (int i = 1; i <= l1; i++) {
// 下一个字符不匹配
while (j && s1[i] != s2[j + 1]) {
// 向前回溯
j = pmt[j];
}
// 下一个字符匹配
if (s1[i] == s2[j + 1]) {
// j 后移一位
j++;
}
// 匹配到字符串
if (j == l2) {
cout << i - l2 + 1 << endl;
// 向前回溯,继续查找
j = pmt[j];
}
}
for (int i = 1; i <= l2; i++) {
cout << pmt[i] << " ";
}
cout << endl;
return 0;
}
文章讨论了KMP算法在查找字符串中特定子串出现位置和计算子串前缀最长border长度的应用
&spm=1001.2101.3001.5002&articleId=135875226&d=1&t=3&u=e363967a97ec48a682c8c39c48524feb)
1043

被折叠的 条评论
为什么被折叠?



